论文笔记: An Analysis of Scale Invariance in Object Detection – SNIP

有关目标检测器训练的两个问题

作者提出了目标检测中有关训练的两个问题:

  1. 对图像进行上采样以获得更好的性能是否有必要?
  2. 当微调一个由分类任务预训练得到的网络时,训练图像的尺度是否应该限制在一个比较小的区间(64x64 到 256x256),还是所有尺寸的目标都参与到训练中。

问题一

在第一个问题上,作者在多尺度分类问题上进行了研究,得到了主要结论有:

  1. 当训练图像与测试图像的分辨率相差越大时,性能下降的约大
  2. 调整网络的结构,以适应于不同的分辨率可以提高网络的性能
  3. 由高分辨率图像训练得到网络也可以用于低分辨率图像,且效果要比调整网络结构要好。

问题二

对第二个问题,目前通常的做法是,模型训练在低分辨率图像(800, 1200)上(由于显存限制), 而测试是在高分辨率图像(1400x2000)上,以提高小尺寸目标的检测率。作者进行了三种训练设置不同的实验,测试是在1400x2000的图像上检测小目标物体(在COCO数据集上小于32x32)。

  1. 第一组实验使用不同分辨率的图像(800x1400和1400x2000)上使用所有尺度的目标进行训练,分别记为 80 0 a l l 800_{all} 800all 140 0 a l l 1400_{all} 1400all。 相比于前者, 140 0 a l l 1400_{all} 1400all的改进很小,原因是在考虑小物体的分类性能而放大图片的同时, 也将中/大尺度的样本放大得太大, 导致无法正确识别.
  2. 第二组实验只使用了1400x2000分辨率下的小尺寸目标训练网络,得到的模型记为 140 0 &lt; 80 p x 1400_{&lt;80px} 1400<80px,其表现要比 80 0 a l l 800_{all} 800all要差,原因是抛弃了太多样本,使数据的丰富性下降。
  3. 第三组实验在每个尺度上随机采集样本目标进行训练,同时抛弃极小和极大的目标,记为MST,实验结果略差于 80 0 a l l 800_{all} 800all

结论

通过以上三组实验,得到的结论是使用尺度合适的样本与尽可能地获得样本的多样性对训练检测器都很重要。

SNIP

基于以上问题的分析,作者提出了MST的升级版SNIP(Scale Normalization for Image Pyramids)。
其核心思想是,只有当这个物体的尺度与预训练数据集的尺度(通常224x224)接近时, 我们才把它用来做检测器的训练样本。所基于的假设是,不同尺度的物体, 因为多尺度训练, 总有机会落在一个合理的尺度范围内. 只有这部分合理尺度的物体参与了训练, 剩余部分在BP的时候被忽略了。

在训练RPN阶段,所有的GT BBs用于给Anchors分配标签。根据第 i i i个尺度下区间 [ s i c , e i c ] [s_i^c, e_i^c] [sic,eic],将GT分为invalid / valid。将与invalid GT 的重叠率小于0.3的anchor设置为valid,去除invali anchor。
在推理阶段,用所有的GT给ProposalRoIs分配好类别标签,弃用不在区间 [ s i c , e i c ] [s_i^c, e_i^c] [sic,eic]内的GT 和 Proposals。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值