物体定位Localization

于分类的区别在于定位还需要输出bonding box,

可以就简单的增加一个regression header来训练输出bonding box部分

可以把regression header放在左后一个conv层后面,也可以放在feature layer


有时候找到多个物体(个数是固定的,比如定位人脸,手的位置)的bonding box,只需要输出多个参数就好了


上面说的方法比较直观,另外的idea是把定位转化为分类

用不同的sliding window来截取很多图片,对这些图片进行分类,得到是某一个类的概率,最后用这些概率对所有的bonding box就行merge(Herustic)

但是这种方法计算量很大,一种化简的思路是把FC转化为Conv,这样对输入图片的大小就没有限制了,然后我们就可以吧大图片feed into net,output更大了,结果看起来就是把很多个的图片同时通过网络,但是我们只需要计算一次

这其中的原因在于在Conv计算的额时候,很多区域是重叠的






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值