【GIoU loss】GIoU loss损失函数理解

寻找永不遗憾

已于 2022-05-27 10:09:29 修改

阅读量1w

点赞数 19

分类专栏：目标检测系列深度学习基础知识文章标签：深度学习 GIoU loss 损失函数

于 2022-05-22 21:01:58 首次发布

本文链接：https://blog.csdn.net/weixin_45377629/article/details/124915296

版权

深度学习基础知识同时被 2 个专栏收录

67 篇文章

订阅专栏

目标检测系列

14 篇文章

订阅专栏

本文详细介绍了IoU Loss在目标检测中的局限性，随后引入GIoU Loss的计算过程，通过对比分析和可视化展示其如何改进不相交框的评估。GIoU通过最小外接矩形来增强IoU的鲁棒性，适用于优化框的位置精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 引言

目标检测任务的损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成。

Bounding Box Regression Loss Function的演进路线是：
Smooth L1 Loss --> IoU Loss --> GIoU Loss --> DIoU Loss --> CIoU Loss

之前写到了 Smooth L1 Loss 和 IoU Loss。
本文介绍GIoU Loss。

2 问题分析

IoU Loss 存在的问题：

当预测框和目标框不相交时 ，IoU(A,B)=0时，不能反映A,B距离的远近，此时损失函数不可导，IoU Loss 无法优化两个框不相交的情况。
假设预测框和目标框的大小都确定，只要两个框的相交值是确定的，那么IoU值就相同，IoU值不能反映两个框是如何相交的。

3 GIoU Loss计算过程

GIoU Loss计算过程如下：
在这里插入图片描述
以上图为例，绿色框表示预测框 $B^p=(x_1^p,y_1^p,x_2^p,y_2^p)$ ，黑色框表示边界框 $B^g=(x_1^g,y_1^g,x_2^g,y_2^g)$ ，首先计算IoU：
$\frac{I}{U}$
其中， $I$ 表示：上图中的灰色阴影部分， $U$ 表示：两个矩形面积之和 $A^p +A^g)$ 减去两个矩形相交的面积 $I$ ，因此IoU也可以表示为：
在这里插入图片描述
GIoU在IoU基础上，考虑了两个矩形最小闭包(the smallest enclosing convex object，两个矩形的最小外接矩形)的大小，GIoU的计算表达式为：

其中， $- 1 \leq G I o U < 1$ ， $A^c$ 是两个矩形的最小外接矩形的面积，也就是上图中虚线框的面积。

$G I o U L o s s = 1 - G I o U$
此时 $0 < G I o U L o s s \leq 2$ 。

4 IoU和GIoU对比分析

算法计算过程对比：

可见计算GIoU损失的方式其实就是计算GIoU，只不过最终结果返回的是1-GIoU。
这是因为1-GIoU的取值范围在[0,2]上，且有一定的“距离”性质，即两个框重叠区域越大，损失越小，反之越大。
图看GIoU到底解决了IoU的什么问题

如上图所示，三种不同相对位置的框拥有相同的IoU=0.33值，但是拥有不同的GIoU=0.33，0.24，-0.1。当框的对齐方向更好一些时GIoU的值会更高一些。

5 代码实现IoU与GIoU的对比可视化

很简单，直接看代码注释即可。

import numpy as np
import cv2


def CountIOU(RecA, RecB):
    xA = max(RecA[0], RecB[0])
    yA = max(RecA[1], RecB[1])
    xB = min(RecA[2], RecB[2])
    yB = min(RecA[3], RecB[3])
    # 计算交集部分面积
    interArea = max(0, xB - xA + 1) * max(0, yB - yA + 1)
    # 计算预测值和真实值的面积
    RecA_Area = (RecA[2] - RecA[0] + 1) * (RecA[3] - RecA[1] + 1)
    RecB_Area = (RecB[2] - RecB[0] + 1) * (RecB[3] - RecB[1] + 1)
    # 计算IOU
    iou = interArea / float(RecA_Area + RecB_Area - interArea)
    
    return iou

def Giou(rec1,rec2):
    # 分别是矩形左上、右下的坐标
    x1,y1,x2,y2 = rec1 
    x3,y3,x4,y4 = rec2
    iou = CountIOU(rec1,rec2)
    area_C = (max(x1,x2,x3,x4)-min(x1,x2,x3,x4))*(max(y1,y2,y3,y4)-min(y1,y2,y3,y4))
    area_1 = (x2-x1)*(y1-y2)
    area_2 = (x4-x3)*(y3-y4)
    sum_area = area_1 + area_2

    w1 = x2 - x1   #第一个矩形的宽
    w2 = x4 - x3   #第二个矩形的宽
    h1 = y1 - y2
    h2 = y3 - y4
    W = min(x1,x2,x3,x4)+w1+w2-max(x1,x2,x3,x4)    # 交叉部分的宽
    H = min(y1,y2,y3,y4)+h1+h2-max(y1,y2,y3,y4)    # 交叉部分的高
    # 交叉的面积
    Area = W * H    
    # 两矩形并集的面积
    add_area = sum_area - Area    
    # 闭包区域中不属于两个框的区域占闭包区域的比重
    end_area = (area_C - add_area)/area_C    
    giou = iou - end_area
    return giou


img = np.zeros((512,512,3), np.uint8)   
img.fill(255)

# 分别是矩形左上、右下的坐标
RecA = [30,30,300,300]
RecB = [60,60,350,340]

cv2.rectangle(img, (RecA[0],RecA[1]), (RecA[2],RecA[3]), (0, 255, 0), 5)
cv2.rectangle(img, (RecB[0],RecB[1]), (RecB[2],RecB[3]), (255, 0, 0), 5)

IOU = CountIOU(RecA,RecB)
GIoU = Giou(RecA,RecB)
font = cv2.FONT_HERSHEY_SIMPLEX

cv2.putText(img,"IOU = %.2f"%IOU,(130, 190),font,0.8,(0,0,0),2)
cv2.putText(img,"GIOU = %.2f"%GIoU,(130, 220),font,0.8,(0,0,0),2)

cv2.imshow("image",img)
cv2.waitKey()
cv2.destroyAllWindows()

在这里插入图片描述

6 感谢链接

https://zhuanlan.zhihu.com/p/104236411
https://blog.csdn.net/A_A666/article/details/111504851
https://zhuanlan.zhihu.com/p/94799295