- warped region,扭曲区域,意义是指图片经过resize操作后的图片
- 将上一个步骤生成的2000个框resize到227*227,然后经过一个CNN获取4096维的向量,每个框都会有4096维的向量,一共2000个框,所以最终输出2000*4096个特征向量(突然想到,deepsort的ReID模块也是采用CNN获取特征向量再计算余弦相似度的方法)
-
由于SVM是一个二分类器,所以每一个类别都有一个SVM,需要的中间权值矩阵size为4096*20,最终的输出就是2000*20,每个框都有20个分类器的输出
-
把下图第一个看成是猫的SVM分类器,第二列看成是狗的SVM分类器,最终的输出如右半部分所示,右半部分一行表示一个框的结果,第一个值表示猫的概率,第二个值表示狗的概率
-
对上面右半部分的每一列进行非极大值抑制,只保留下告高质量的框
-
非极大值抑制,注意非极大值的方法,先将大于阈值的给删除掉,然后对剩下的集合重复操作,直到无法删除为止
-
利用上面预测到的每个框的4096维特征向量
-
通过回归器会得到预测框的x偏移量、y偏移量、宽高的缩放因子