边框回归是什么?
如下图:
对于边框,一般使用向量(x,y,w,h) 来表示, 分别表示窗口的中心点坐标和宽高。红色的框 P 代表原始的Proposal。绿色的框 G 代表目标的 Ground Truth;
我们的目标是寻找一种关系,使得原始输入框P(红色的框)经过映射得到一个 Ground Truth(绿色框)更接近的回归看框
G
^
\widehat{G}
G
(蓝色框)。所以,边框回归的目的即是:给定(Px,Py,Pw,Ph)寻找一种映射f, 使得:f(Px,Py,Pw,Ph) = (
G
x
^
\widehat{Gx}
Gx
,
G
y
^
\widehat{Gy}
Gy
,
G
w
^
\widehat{Gw}
Gw
,
G
h
^
\widehat{Gh}
Gh
)并且(
G
x
^
\widehat{Gx}
Gx
,
G
y
^
\widehat{Gy}
Gy
,
G
w
^
\widehat{Gw}
Gw
,
G
h
^
\widehat{Gh}
Gh
)≈(Gx,Gy,Gw,Gh)
边框回归怎么做?比较简单的思路就是: 平移+尺度缩放
其中,坐标乘以宽高是为了以平移的比例来计算,而宽高使用指数形式是为了保证缩放比例为正数。那么可以求出目标变换t*(.)为:
t
x
=
(
G
x
^
−
P
x
)
/
P
w
t_x = (\hat{G_x} - P_x) / P_w
tx=(Gx^−Px)/Pw
t
y
=
(
G
y
^
−
P
y
)
/
P
h
t_y = (\hat{G_y} - P_y) / P_h
ty=(Gy^−Py)/Ph
t
w
=
l
o
g
(
G
w
^
/
P
w
)
t_w = log(\hat{G_w} / P_w)
tw=log(Gw^/Pw)
t
h
=
l
o
g
(
G
h
^
/
P
h
)
t_h = log(\hat{G_h} / P_h)
th=log(Gh^/Ph)