bounding box regression
如图9所示绿色框为飞机的Ground Truth(GT),红色为提取的foreground anchors,那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准,这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法对红色的框进行微调,使得foreground anchors和GT更加接近。
对于窗口一般使用四维向量(x, y, w, h)表示,分别表示窗口的中心点坐标和宽高。对于图 10,红色的框A代表原始的Foreground Anchors,绿色的框G代表目标的GT,我们的目标是寻找一种关系,使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G’,即:给定A=(Ax, Ay, Aw, Ah),寻找一种映射f,使得f(Ax, Ay, Aw, Ah)=(G’x, G’y, G’w, G’h),其中(G’x, G’y, G’w, G’h)≈(Gx, Gy, Gw, Gh)。
那么经过何种变换才能从图6中的A变为G’呢? 比较简单的思路就是:
- 先做平移
- 再做缩放
版权声明:本文为CSDN博主「moonuke」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_36269513/article/details/80421990
https://zhuanlan.zhihu.com/p/55824651
end to end 端到端,只有输入和输出,其他的在神经网络里都做了
SVM分类器和Bbox reg 的回归器
SPP网络
全连接层要连卷积输出的特征,输入图片大小不一样,最后特到的特征图的大小也不一样
经过一个spp(spatial pyrmid pooling layer )pooling层,让他们连成的串(拼接在一起,形成一个新的特征)的size是一致的——之后就可以进行全连接操作了,不同的卷积的大小,对于全连接层怎么连