睿智的目标检测10——先验框详解及其代码实现

最新推荐文章于 2024-04-22 22:32:49 发布

Bubbliiiing

最新推荐文章于 2024-04-22 22:32:49 发布

阅读量2.1w

点赞数 48

分类专栏：睿智的目标检测文章标签：先验框详解代码实现目标检测

本文链接：https://blog.csdn.net/weixin_44791964/article/details/103169623

版权

睿智的目标检测专栏收录该内容

67 篇文章 2795 订阅

订阅专栏

睿智的目标检测10——先验框详解及其代码实现

学习前言
什么是先验框
先验框的获得
- 1、yolo2先验框
- 2、yolo3先验框

学习前言

最近开始重新看看目标检测，感觉有很多坑还不懂，就从先验框开始吧。
在这里插入图片描述

什么是先验框

在目标检测中，常常有先验框的一个概念，不管是SSD还是yolov2和yolov3都用到了先验框。

简单的一句话来讲，先验框就是帮助我们定好了常见目标的宽和高，在进行预测的时候，我们可以利用这个已经定好的宽和高处理，可以帮助我们进行预测。

在进行训练的时候呢，我们也要利用到先验框进行y_true的处理，找到ground truth在图片中对应着哪个网格点。

怎么理解这个先验框呢，我们可以从目标检测的原理出发，以yolov2为例。

yolov2是将图片分成了13x13个的网络点，然后对应着169个网络点，每个网络点负责一块区域的检测。
在这里插入图片描述
对于yolov2而言，如果检测时coco数据集，那么它的输出就是(13,13,(80+5)*5)，对应着13x13个的网络点，每个网络点上有五个先验框，每个先验框里面有85个参数，分别对应着x_offset、y_offset、h和w、置信度、分类结果。

先验框的作用就是辅助处理x_offset、y_offset、h和w。

yolov2的解码过程就是将每个网格点加上它对应的x_offset和y_offset，加完后的结果就是预测框的中心，然后再利用先验框和h、w结合计算出预测框的长和宽。这样就能得到整个预测框的位置了。

结合代码理解的更清楚噢：

# 偏移量、置信度、类别
# 中心坐标相对于该cell坐上角的偏移量，sigmoid函数归一化到(0,1)
# [batch,169,5,2]
xy_offset = tf.nn.sigmoid(net[:, :, :, 0:2])
wh_offset = tf.exp(net[:, :, :, 2:4])
obj_probs = tf.nn.sigmoid(net[:, :, :, 4])
class_probs = tf.nn.softmax(net[:, :, :, 5:])  
# x_cell和y_cell是网格分割中心
# xy_offset是相对中心的偏移情况
bbox_x = (x_cell + xy_offset[:, :, :, 0]) / 13
bbox_y = (y_cell + xy_offset[:, :, :, 1]) / 13
bbox_w = (self.anchor_size[:, 0] * wh_offset[:, :, :, 0]) / 13
bbox_h = (self.anchor_size[:, 1] * wh_offset[:, :, :, 1]) / 13

先验框的获得

在寻常的kmean算法中，使用的是欧氏距离来完成聚类，但是先验框显然不可以这样，因为大框的欧氏距离更大，yolo2使用的是处理后的IOU作为欧氏距离。
$d i s t a n c e (i, c e n t e r) = 1 - I O U (i, c e n t e r)$
处理后的IOU其实指的是每个聚类中心与其它的框的重合程度，如果单用IOU(i,center)的话，就是IOU(i,center)越大重合度越高，我们是希望重合度越高距离越短，这样才可以kmeans聚类，所以不可以直接使用IOU(i,center)，所以应当为其取负号后加上1。

1、yolo2先验框

实现代码如下：

import numpy as np
import xml.etree.ElementTree as ET
import glob
import random

def cas_iou(box,cluster):
    x = np.minimum(cluster[:,0],box[0])
    y = np.minimum(cluster[:,1],box[1])

    intersection = x * y
    area1 = box[0] * box[1]

    area2 = cluster[:,0] * cluster[:,1]
    iou = intersection / (area1 + area2 -intersection)

    return iou

def avg_iou(box,cluster):
    return np.mean([np.max(cas_iou(box[i],cluster)) for i in range(box.shape[0])])


def kmeans(box,k):
    # 取出一共有多少框
    row = box.shape[0]
    
    # 每个框各个点的位置
    distance = np.empty((row,k))
    
    # 最后的聚类位置
    last_clu = np.zeros((row,))

    np.random.seed()

    # 随机选5个当聚类中心
    cluster = box[np.random.choice(row,k,replace = False)]
    # cluster = random.sample(row, k)
    while True:
        # 计算每一行距离五个点的iou情况。
        for i in range(row):
            distance[i] = 1 - cas_iou(box[i],cluster)
        
        # 取出最小点
        near = np.argmin(distance,axis=1)

        if (last_clu == near).all():
            break
        
        # 求每一个类的中位点
        for j in range(k):
            cluster[j] = np.median(
                box[near == j],axis=0)

        last_clu = near

    return cluster

def load_data(path):
    data = []
    # 对于每一个xml都寻找box
    for xml_file in glob.glob('{}/*xml'.format(path)):
        tree = ET.parse(xml_file)
        height = int(tree.findtext('./size/height'))
        width = int(tree.findtext('./size/width'))
        # 对于每一个目标都获得它的宽高
        for obj in tree.iter('object'):
            xmin = int(float(obj.findtext('bndbox/xmin'))) / width
            ymin = int(float(obj.findtext('bndbox/ymin'))) / height
            xmax = int(float(obj.findtext('bndbox/xmax'))) / width
            ymax = int(float(obj.findtext('bndbox/ymax'))) / height

            xmin = np.float64(xmin)
            ymin = np.float64(ymin)
            xmax = np.float64(xmax)
            ymax = np.float64(ymax)
            # 得到宽高
            data.append([xmax-xmin,ymax-ymin])
    return np.array(data)


if __name__ == '__main__':
    anchors_num = 5
    # 载入数据集，可以使用VOC的xml
    path = r'D:\Study\Collection\yolo_Collection\keras-yolo3-master\ThreeSign-yolo3-master\VOCdevkit\VOC2012/Annotations'
    
    # 载入所有的xml
    # 存储格式为转化为比例后的width,height
    data = load_data(path)
    
    # 使用k聚类算法
    out = kmeans(data,anchors_num)
    out = out[np.argsort(out[:,0])]
    print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))
    print(out*13)

结果是：

acc:61.32%
[[ 0.572       1.00533333]
 [ 1.378       2.32266667]
 [ 2.6         5.06133333]
 [ 5.304       8.008     ]
 [10.608      10.79      ]]

是不是和yolo2中所用的先验框很相似呢？
在这里插入图片描述

2、yolo3先验框

如果我们把主函数改称这样，聚类9个中心点，其实就是yolo3的先验框结构：

if __name__ == '__main__':
    anchors_num = 9
    # 载入数据集，可以使用VOC的xml
    path = r'D:\Study\Collection\yolo_Collection\keras-yolo3-master\ThreeSign-yolo3-master\VOCdevkit\VOC2012/Annotations'
    
    # 载入所有的xml
    # 存储格式为转化为比例后的width,height
    data = load_data(path)
    
    # 使用k聚类算法
    out = kmeans(data,anchors_num)
    out = out[np.argsort(out[:,0])]
    print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))
    print(out*416)

输出就是：

acc:67.15%
[[ 14.144  18.304]
 [ 23.296  49.088]
 [ 44.928  92.352]
 [ 47.424  31.616]
 [ 81.536 154.752]
 [ 95.68   73.216]
 [143.104 230.464]
 [222.976 131.456]
 [301.184 274.56 ]]

是不是与yolo3的先验框很相似呢？不过这是基于voc2012的，和coco不同。

10,13, 
16,30,  
33,23,  
30,61,  
62,45,  
59,119,  
116,90,  
156,198,  
373,326

Bubbliiiing

关注

48
点赞
踩
214

收藏

觉得还不错? 一键收藏
打赏
41
评论
睿智的目标检测10——先验框详解及其代码实现

睿智的目标检测10——先验框详解及其代码实现学习前言什么是Focal loss控制容易分类和难分类样本的权重两种权重控制方法合并实现方式学习前言最近开始重新看看目标检测，感觉有很多坑还不懂，就从先验框开始吧。什么是Focal loss控制容易分类和难分类样本的权重按照刚才的思路，一个二分类，样本1属于类别1的pt=0.9，样本2属于类别1的pt=0.6，也就是是某个类的概率越大，其越...
复制链接

扫一扫