Faster R-CNN的几个重要点
1、Region proposals 如何生成?
在conv feature map上滑动窗口,找到每个窗口中心点在原始图像中的位置,生成k=9个anchor boxes,9个boxes中每个box进行卷积计算后输出是一个256维的向量经过不同fc层得到reg和cls:reg层有4*9=36个坐标;cls层只表示这个box是object还是背景,为概率打分。
滑动窗口在feature map上,anchor在原图上。滑动窗口生成的score和坐标影响anchor:根据偏移量修正anchor得到proposal。这些proposals被非极大值抑制约束到只剩下2000个。(第14min)
2、muti-task loss
pi 表示 【预测出的】 anchor i 是object的概率,
pi* = 1 表示 anchor i 是 object ; pi* = 0 表示 anchor i 是 背景,此时Lreg不参与计算
3、bbox回归(拟合)------ 不直接预测坐标,预测偏移量
【tx是预测网络的回归参数】
【tx是GT的回归参数】
x-xa:预测的x - Anchor的x
x-xa:ground-truth box的x - Anchor的x
wa是anchor的高宽,【【【不是anchor的权重】】】】
【在yolo v2也会用到!!】
下面的【减号】换成【加号】
区别:Faster R-CNN中是计算偏移量tx,ty等;但是yolov2中直接计算坐标x,y