基于Tensorflow2的YOLOV4 网络结构及代码解析（3）——yolo_head部分

最新推荐文章于 2024-04-28 19:54:15 发布

xiaoyang0307

最新推荐文章于 2024-04-28 19:54:15 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习文章标签： tensorflow 深度学习神经网络机器学习

本文链接：https://blog.csdn.net/xiaoyang0307/article/details/113931552

版权

深度学习专栏收录该内容

13 篇文章 4 订阅

订阅专栏

笔者以tensorflow2代码作为基础，解析yolovV4的网络结构。

继上篇《基于Tensorflow2的YOLOV4 网络结构及代码解析（2）——NECK部分》博文后继续解析yoloV4的yolohead

本篇博客主要介绍两个个方面：

1.yolo解码

2.门限筛选和非极大值抑制

在进入yolo_head之前，先看一下源码中的参数配置以及一些语法细节，代码如下：

       if self.eager:
            self.input_image_shape = Input([2,],batch_size=1)
            inputs = [*self.yolo_model.output, self.input_image_shape]
            outputs = Lambda(yolo_eval, output_shape=(1,), name='yolo_eval',arguments={'anchors': self.anchors, 'num_classes': len(self.class_names), 'image_shape': self.model_image_size, 'score_threshold': self.score, 'eager': True, 'max_boxes': self.max_boxes})(inputs)
            self.yolo_model = Model([self.yolo_model.input, self.input_image_shape], outputs)

这段代码中，有几个值得注意的地方：

1.inputs = [*self.yolo_model.output, self.input_image_shape]中“*”的用法：

*号的意思表示将列表解开，当作独立的参数传入函数。**的意思是将字典解开，当作独自的参数传入函数。上面代码意思就是将3个model.output的Tensor和Input生成的Tensor组成inputs列表

2."Lambda"的用法：

此处的Lambad不是python自带的lambda语法。他更应该理解为自定义层的一种简便写法，生成层对象，适用于简单的操作。因此，源码可以理解为将诸如anchors,num_class,image_shape等参数传给yolo_eval函数，得到1维结果

3.eager模式：

tf1.5之后引入eager模式，到了tf2之后默认采用eager模式。之前调试tf的时候，需要先构建好完整的图后再run.这样debug的时候极其麻烦，更不利于自定义层的创建。而通过eager模式，做一步便可以看到结果，调试难度大大降低。

完成传参后进入“yolo_eval"函数，该函数实现了解码，非极大值抑制，门限删选等一系列工作。

    for l in range(num_layers):
        _boxes, _box_scores =yolo_boxes_and_scores(yolo_outputs[l],anchors[anchor_mask[l]], num_classes, input_shape, image_shape)

该函数中调用了”yolo_head“和”yolo_correct_boxes“。它们的作用是将特征图解码和对应到原图上的位置和尺寸。

该函数代码中，利用变量anchor_mask对anchor进行配置（可能为了美观，在anchor初始时未调整顺序）。anchor与特征图相对于关系为:

#   13x13的特征层对应的anchor是[142, 110], [192, 243], [459, 401]
#   26x26的特征层对应的anchor是[36, 75], [76, 55], [72, 146]
#   52x52的特征层对应的anchor是[12, 16], [19, 36], [40, 28]

yolo解码:

box_xy, box_wh, box_confidence, box_class_probs = yolo_head(feats, anchors, num_classes, input_shape)

函数"yolo_head"做了大量的维度转换，故直接在代码注解中逐步分析。

def yolo_head(feats, anchors, num_classes, input_shape, calc_loss=False):
    #num_anchors=3
    num_anchors = len(anchors)
    #转换为tensor类型。实际测试发现没必要转换为tensor，因为传入的feats数据类型就是tensor
    feats = tf.convert_to_tensor(feats)
    anchors_tensor = K.reshape(K.constant(anchors), [1, 1, 1, num_anchors, 2])

    #---------------------------------------------------#
    #获取grid的宽和高
    #---------------------------------------------------#
    grid_shape = K.shape(feats)[1:3]  # height, width
    #对grid_y进行维度编号，得到（13，13，1，1）
    grid_y = K.tile(K.reshape(K.arange(0, stop=grid_shape[0]), [-1, 1, 1, 1]),
                    [1, grid_shape[1], 1, 1])
    #对grid_x进行维度编号，得到（13，13，1，1）
    grid_x = K.tile(K.reshape(K.arange(0, stop=grid_shape[1]), [1, -1, 1, 1]),
                    [grid_shape[0], 1, 1, 1])
    #对grid 进行维度编号，得到（13，13，1，2）
    grid = K.concatenate([grid_x, grid_y])
    grid = K.cast(grid, K.dtype(feats))

    #---------------------------------------------------#
    #   将预测结果调整成(batch_size,13,13,3,85)
    #   85可拆分成4 + 1 + 80
    #   4代表的是中心宽高的调整参数
    #   1代表的是框的置信度
    #   80代表的是种类的置信度
    #---------------------------------------------------#
    feats = K.reshape(feats, [-1, grid_shape[0], grid_shape[1], num_anchors, num_classes + 5])

上述代码中有几点细节需要注意：

1.Tensor和EagerTensor:笔者在写文档过程中本来想获取Tensor中的具体指，以便更直断的进行分析。而在此过程中发现，若数据类型为Tensor时，仅仅可以获取维度而无法获取具体的值。查看tf官网发现，若数据类型为EagerTensor时，可获取Value，而Tensor只有shape和name两个属性。个人理解，应该将Tensor理解为一个操作或者一个占位符更加合适，而不是一个数据对象。（尝试网上说的如tf.session(),numpy()等方法，均无效)

2.K.tile的用法:用于tensor的扩展。input为输入维度，multiples为扩张倍数。注：扩张维度必须与input维度相同，扩张倍数一一对应

tf.tile(
    input,
    multiples,
    name=None
)

3.K.concatenate的用法:tf.keras.backend.concatenate与tf.concat等价。相对维度做连接。axis默认为-1。也就是在这里使用的。直观的理解是grid_x表示13*13个x,grid_y表示13*13个y。连接起来后表示13*13个【x,y】，这样就可以表示每个grid的位置。

 #---------------------------------------------------#
    #   将预测值调成真实值
    #   box_xy对应框的中心点
    #   box_wh对应框的宽和高
    #---------------------------------------------------#
    box_xy = (K.sigmoid(feats[..., :2]) + grid) / K.cast(grid_shape[...,::-1], K.dtype(feats))
    box_wh = K.exp(feats[..., 2:4]) * anchors_tensor / K.cast(input_shape[...,::-1], K.dtype(feats))
    box_confidence = K.sigmoid(feats[..., 4:5])
    box_class_probs = K.sigmoid(feats[..., 5:])

    #---------------------------------------------------------------------#
    #   在计算loss的时候返回grid, feats, box_xy, box_wh
    #   在预测的时候返回box_xy, box_wh, box_confidence, box_class_probs
    #---------------------------------------------------------------------#
    if calc_loss == True:
        return grid, feats, box_xy, box_wh
    return box_xy, box_wh, box_confidence, box_class_probs

上述代码为grid位置坐标的转换。网上有太多相关接受，故不作详解。这里唯一值得注意的是，获取位置偏移后，做了归一化处理。

对于初学者这个图也有一定的迷惑性质，可以把上图的每个网格想象成feature map上的一个点，则第一个像素对应的偏移为（0,0），第一行第二个偏移为（1,0）以此类推。图中标注的点偏移量为（1,1）。

yolo_head中转换为真实值时gride偏移相对于特征图尺寸做了归一化。

代码对于预测出的值进行了Sigmoid操作目的是为了让坐标值在0-1之间。

假设蓝色点为13*13的feature map 中的cell预测的中心点坐标为x,y，取sigmoid后其坐标为 (0.3, 0.5)，则真实框在这个尺度上的中心点坐标值为（0.3+1, 0.5+1)，映射到原图尺度为（1.3,1,5）*scale。参考（https://www.cnblogs.com/wangxinzhe/p/10648465.html）

整个yolo_head的输出值根据train与test有所不同。在train下，输出参数（grid, feats, box_xy, box_wh），Test下输出参数为（box_xy, box_wh, box_confidence, box_class_probs）

    #-----------------------------------------------------------------#
    #   在图像传入网络预测前会进行letterbox_image给图像周围添加灰条
    #   因此生成的box_xy, box_wh是相对于有灰条的图像的
    #   我们需要对齐进行修改，去除灰条的部分。
    #   将box_xy、和box_wh调节成y_min,y_max,xmin,xmax
    #-----------------------------------------------------------------#
    boxes = yolo_correct_boxes(box_xy, box_wh, input_shape, image_shape)

上述函数将box_xy和box_wh对应到原始图像中。做了类似图像缩放，对应点偏移的工作，个人认为没有讨论必要，如有需要可私信我。

2.门限筛选和非极大值抑制

mask = box_scores >= score_threshold

利用预设的门限值，摒弃部分置信值较低的类别。

        nms_index = tf.image.non_max_suppression(class_boxes, class_box_scores, max_boxes_tensor, iou_threshold=iou_threshold)

TF中自带非极大值抑制函数，可直接使用。

非极大值抑制的处理步骤如下”

1.遍历图片中所有识别出目标的类，对每个类进行单独分析

2.遍历某个类中所有的置信框

3.选出得分最大的置信框

4.去除与该置信框IOU超过阈值的框

5.继续遍历剩余的框，并重复步骤2-4.

api定义为：

tf.image.non_max_suppression(
    boxes, scores, max_output_size, iou_threshold=0.5,
    score_threshold=float('-inf'), name=None
)

官方解释：摒弃在之前选定框中高重合（IOU）框，Bounding box 提供形式为[y1,x1,y2,x2]，其中(y1,x1)和（y2,x2）是对角线坐标并且进行归一化。

参数：

boxes: 二维Tensor，shape为[num_boxes,4]

scores:一维Tensor，shape[num_boxes]表示单个根据每个box获取的单个分数

max_output_size:标量，表示通过非极大值抑制可选择最大的Box个数

iou_threshold：iou阈值

score_threshold:根据分数移除box

经过NMS后，再进行维度堆叠，可获得最终结果。

到这里，已经将yoloV4整个模型全部解释完整，包括算法与相关源码的解析。个人认为，其中最为晦涩难懂的是yolohead部分，大量的维度转换以及坐标映射关系。

本篇博客均为自己对yoloV4以及tensorflow2的部分理解，如果有错误，欢迎纠正和提出意见。

后续将持续更新

YOLOV4的YoloHead
YOLOV4的Loss和Input
YOLOV4的创新点以及一些tricks

E-mail:wangxiaoyang0307@foxmail.com

xiaoyang0307

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
基于Tensorflow2的YOLOV4 网络结构及代码解析（3）——yolo_head部分

笔者以tensorflow2代码作为基础，解析yolovV4的网络结构。继上篇《基于Tensorflow2的YOLOV4 网络结构及代码解析（2）——NECK部分》博文后继续解析yoloV4的yolohead本篇博客主要介绍两个个方面：1.yolo解码2.非极大值抑制3.门限筛选在进入yolo_head之前，先看一下源码中的参数配置以及一些语法细节，代码如下： if self.eager: self.input_image_shape = I
复制链接

扫一扫