对于窗口一般使用四维向量(x,y,w,h)来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G^。
边界框回归的实质就是平移+缩放。
每一张图对应着一个最优变换:
我们希望d无限逼近t!!
求出最优的四个参数:
训练的过程就是学习权重w,得到四个变换操作d
参考:
https://blog.csdn.net/weixin_43384257/article/details/90901324