交集面积如何计算?
先求cluster和box宽的较小值(图中为Wc),再求cluster和box的高的较小值(图中为Hb),然后再让两个较小值相乘
下面是边框聚类的代码及注释:
#-------------------------------------------------------------------------------------------------#
# kmeans虽然会对数据集中的框进行聚类,但是很多数据集由于框的大小相近,聚类出来的9个框相差不大,
# 这样的框反而不利于模型的训练。因为不同的特征层适合不同大小的先验框,越浅的特征层适合越大的先验框
# 原始网络的先验框已经按大中小比例分配好了,不进行聚类也会有非常好的效果。
#-------------------------------------------------------------------------------------------------#
# 假如我不知道先验框的大小,或者我想建立几个适合自己任务的先验框,
# 那么就可以用这个程序,从自己的数据集中,聚类出几个先验框来
import glob
import xml.etree.ElementTree as ET
import numpy as np
def cas_iou(box,cluster):
# box和cluster中记录的是边框的高和宽
# box的shape是(2, ), cluster的shape是(9,2)
# 该方法是计算box与9个cluster的交并比
# 这里求IOU,假设各个边框的中心是重合的,也就是说,不考虑中心点坐标位置差异
# x,y是交集的宽和高
x = np.minimum(cluster[:,0],box[0])
y = np.minimum(cluster[:,1],box[1])
# 计算box和9个聚类中心的交集,下面的命令读不懂,可以看这个链接:https://blog.csdn.net/weixin_44457930/article/details/120302685
intersection = x * y
area1 = box[0] * box[1] # 边框1的面积
area2 = cluster[:,0] * cluster[:,1] # 边框2(聚类中心)的面积
# 计算交并比
iou = intersection / (area1 + area2 -intersection)
return iou
def avg_iou(box,cluster):
# cas_iou(box[i],cluster)表示计算第i个边框与9个聚类中心框的iou,返回的shape为(9,)
# np.max(cas_iou(box[i],cluster))表示从9个iou中,选择最大的
# 接着使用列表推导式得到列表,列表的每个元素表示每个边框与9个iou的最大值,
# iou越大,说明距离越小,如果iou为1,则说明完全重合,
# 如果用聚类中心(cluster1)来代替其他边框(假设为box1),那么可以用iou来表示其准确度
# 最后对列表取均值,表示平均准确度
return np.mean([np.max(cas_iou(box[i],cluster)) for i in range(box.shape[0])])
def kmeans(box,k):
# box是待分类的边框, shape为(m, 2),m是边框数目
# 返回的是k个聚类中心的高宽,即返回的shape是(k,2)
# 取出一共有多少框
row = box.shape[0]
# 每个框与9个聚类中心的“距离”
distance = np.empty((row,k))
# 最后的聚类位置
last_clu = np.zeros((row,))
# 设置种子
np.random.seed()
# 随机选k个框当聚类中心
# 下面这条命令表示从row个数中随机选取k个,replace表示是否重复
centers = np.random.choice(row,k,replace = False)
# 获得聚类中心
cluster = box[centers]
# cluster = random.sample(row, k)
while True:
# 计算box中每一行与9个聚类中心的距离,这里的距离,用1-IOU来衡量。
for i in range(row):
distance[i] = 1 - cas_iou(box[i],cluster)
# 取出每一行的最小值索引,可以得到与每个box距离自小的聚类中心,即分类结果
near = np.argmin(distance,axis=1)
# 如果连续两次的分类结果一致,则退出循环
if (last_clu == near).all(): # last_clu是上一次分类的结果
break
# 更新聚类中心
for j in range(k):
# 计算每个聚类中心高宽的中位数
cluster[j] = np.median(box[near == j],axis=0)
last_clu = near # 将本次的分类结果保存到 last_clu
return cluster # 将9个聚类中心的高宽返回
def load_data(path):
# 将path目录下的所有注释文件依次解析,逐个获得里面的目标信息
# 返回一个numpy数组,该数组的shape为(m, 2),
# 其中m是数据中所有目标框的总数,一张图片可能包含多个目标,也可能没有目标
# 2是因为收集了高和宽,所以是(m, 2)
data = []
# 对于每一个xml都寻找box
for xml_file in glob.glob('{}/*xml'.format(path)):
# 解析xml文件
tree = ET.parse(xml_file)
# 获取图片的高和宽
height = int(tree.findtext('./size/height'))
width = int(tree.findtext('./size/width'))
# 检测数据是否有问题
if height<=0 or width<=0:
continue
# 对于每一个目标都获得它的宽高,并归一化
for obj in tree.iter('object'):
# 注释文件中的边框信息是左上角和右下角的顶点坐标
xmin = int(float(obj.findtext('bndbox/xmin'))) / width
ymin = int(float(obj.findtext('bndbox/ymin'))) / height
xmax = int(float(obj.findtext('bndbox/xmax'))) / width
ymax = int(float(obj.findtext('bndbox/ymax'))) / height
xmin = np.float64(xmin)
ymin = np.float64(ymin)
xmax = np.float64(xmax)
ymax = np.float64(ymax)
# 得到宽高
data.append([xmax-xmin,ymax-ymin])
return np.array(data)
if __name__ == '__main__':
# 运行该程序会计算'./VOCdevkit/VOC2007/Annotations'的xml
# 会生成./yolo_anchors.txt
SIZE = 416 # 图片的高和宽
anchors_num = 9 # anchor数量
# 标签目录,即xml所在目录
path = r'./VOCdevkit/VOC2007/Annotations'
# 载入所有的xml
# 存储格式为转化为归一化后的width,height
data = load_data(path)
# 使用k聚类算法获得聚类中心
out = kmeans(data,anchors_num) # 返回的数组shape为(9,2)
# 将聚类中心按照高进行排序
out = out[np.argsort(out[:,0])]
# 求用聚类边框表示其他边框的平均准确度,详见avg_iou()中的注释
print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))
# 在提取边框的高宽时,由于进行了归一化,因此需要乘以图片的尺寸
# 原来的图片,未必是416,这里我们将其调整到416,这样边框的高和宽则是在416大小的图片中的具体值
print(out*SIZE)
data = out*SIZE
# 将聚类后的边框的高和宽写入 yolo_anchors.txt
f = open("yolo_anchors.txt", 'w')
row = np.shape(data)[0]
for i in range(row):
if i == 0:
x_y = "%d,%d" % (data[i][0], data[i][1])
else:
x_y = ", %d,%d" % (data[i][0], data[i][1])
f.write(x_y)
f.close()