于分类的区别在于定位还需要输出bonding box,
可以就简单的增加一个regression header来训练输出bonding box部分
可以把regression header放在左后一个conv层后面,也可以放在feature layer
有时候找到多个物体(个数是固定的,比如定位人脸,手的位置)的bonding box,只需要输出多个参数就好了
上面说的方法比较直观,另外的idea是把定位转化为分类
用不同的sliding window来截取很多图片,对这些图片进行分类,得到是某一个类的概率,最后用这些概率对所有的bonding box就行merge(Herustic)
但是这种方法计算量很大,一种化简的思路是把FC转化为Conv,这样对输入图片的大小就没有限制了,然后我们就可以吧大图片feed into net,output更大了,结果看起来就是把很多个的图片同时通过网络,但是我们只需要计算一次
这其中的原因在于在Conv计算的额时候,很多区域是重叠的