Bounding Box Regression超详解（全站最全汇总版）综合各个途径文档看这一篇就够了解决你所有疑惑

迪菲赫尔曼

已于 2022-07-28 19:59:45 修改

阅读量8.8k

点赞数 68

分类专栏：深度学习文章标签：深度学习机器学习人工智能

于 2021-11-21 19:24:36 首次发布

原创文章为博主个人所有，未经授权不得转载、摘编、传播、倒卖、洗稿或利用其它方式使用上述作品。违反上述声明者，本站将追求其相关法律责任。

本文链接：https://blog.csdn.net/weixin_43694096/article/details/121457923

版权

深度学习专栏收录该内容

10 篇文章

订阅专栏

本文深入解析BoundingBoxRegression原理，包括为何需要边框回归、其具体含义、实现细节等，并探讨了为何使用相对坐标差及宽高比取对数的原因。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文从问题的角度出发，手把手带你拆解公式，让你彻底搞懂Bounding Box Regression😁

文章目录

0.回顾一下RCNN

大家一般都是从RCNN开始了解Bounding Box Regression的，所以这里简单回顾一下RCNN
RCNN算法流程可分为4步：
1.一整图像生成1K~2K个候选区域（使用Selective Search方法）
2.对每个候选框区域使用深度网络提取特征
3.特征送入每一类的SVM分类器，判别是否属于该类
4.使用回归器精细修正候选框位置
在这里插入图片描述

在这里插入图片描述

这里我要说的就是RCNN的第四步，即“边界框回归”
主要围绕着这六个问题来解析Bounding Box Regression：

1.为什么要边框回归？
2.什么是边框回归？
3.边框回归细节
4.为什么使用相对坐标差?
5.为什么宽高比只能取对数？
6.为什么IoU较大时边界框回归可视为线性变换？

1.为什么要边框回归？

在这里插入图片描述
对于上图，绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth 更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调这个窗口的。

2.边框回归是什么？

对于窗口一般使用四维向量 $(x, y, w, h)$ 来表示，分别表示窗口的中心点坐标和宽高。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口 $\widehat{G}$ 。
在这里插入图片描述
$边框回归的目的是：给定(P_x,P_y,P_w,P_h)寻找一种映射f，使得f(P_x,P_y,P_w,P_h)=(\widehat{G}_x,\widehat{G}_y,\widehat{G}_w,\widehat{G}_h)$ $并且(\widehat{G}_x,\widehat{G}_y,\widehat{G}_w,\widehat{G}_h)≈(G_x,G_y,G_w,G_h)$

3.边框回归细节

RCNN论文里指出，边界框回归是利用平移变换和尺度变换来实现映射。

$平移变换 (Δ x, Δ y) 的计算公式如下：$
$Δx=P_wd_x(P),Δy=P_hd_y(P)$

$\widehat{G}_x=P_x+Δx$
$\widehat{G}_y=P_y+Δy$

$尺度变换(Δ_w,Δ_h)的计算公式如下：$
$Δ_w=e^{(d_w(P))},Δ_h=e^{(d_h(P))},$
$\widehat{G}_w=P_w∗Δw$
$\widehat{G}_h=P_h∗Δh$

这样我们就得到了变换的一般形式：
$\widehat{G}_x=P_x+P_wd_x(P)$

$\widehat{G}_y=P_y+P_hd_y(P)$

$\widehat{G}_w=P_w∗e^{dw(P)}$

$\widehat{G}_h=P_h∗e^{dh(P)}$

$- - - - - - - - - - - - - - - - - - -$

$G_x=P_x+P_wt_x(P)$

$G_y=P_y+P_ht_y(P)$

$G_w=P_w∗e^{tw(P)}$

$G_h=P_h∗e^{th(P)}$

$也就是说，一个 d 对应着一个 t ，用 i 表示一张图片的序号：$
$d_i→t_i$
$下一步就是设计算法得到这个映射 \to 使 d 无限接近 t$

$根据上述公式可以推导出 t *$
请添加图片描述

注意：当输入的Proposal 与 Ground Truth 相差较小时（RCNN设置的是IOU>0.6）可以认为这种变换是一种线性变换，那么我们就可以用线性回归模型对窗口进行微调,只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟Ground Truth离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）。这个也是G-CNN: an Iterative Grid Based Object Detector多次迭代实现目标准确定位的关键。
那么什么是线性回归？
线性回归就是给定输入的特征向量 X, 学习一组参数 W, 使得经过线性回归后的值跟真实值 Y(Ground Truth)非常接近.，即Y≈WX

那么这个映射关系中我们的输入以及输出分别是什么呢？

输入： $Region Proposal的→P=(P_x,P_y,P_w,P_h)$