ATSS论文阅读笔记

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection 论文阅读笔记

  • 这是CVPR2020的文章

  • 文章三个贡献,首先指出了anchor-based方法与anchor-free方法在性能上的决定性差异在于positive和negative sample的判断机制,如果采取相同的判断机制,那么这些方法将没有性能差别,对anchor进行回归和对点进行回归并不带来性能的区别。为此,文章提出一种判断positive和negative sample的机制,从而使得目标检测的性能有了大幅提升,这是第二个贡献。第三个贡献是分析了在同一个位置上定义多个不同形状大小的anchor的必要性(分析结果是——没有必要)。
  • anchor-free方法大致可以分为两种,一种是keypoint-based,一种是center-based,keypoint-based和anchor-based差别太大,bridge不起来,所以其实本文所指的是anchor-free中的center-based方法,这部分方法与anchor-based方法的区别主要在三个地方:
    1. center-based在同一点地方只预测一个bbox,而anchor-based在同一个点堆叠了多个anchor
    2. anchor-based的方法多数使用IOU来判断positive和negative sample,而center-based的方法则一般根据center的位置和所在的feature level与GTbox的大小关系来判断
    3. anchor-based的方法回归的是与anchor的误差,而center-based的方法直接预测其长宽。
  • 经过控制变量探究发现这三个因素,只有第二个因素影响较大,其它两个因素对网络性能影响不大

对比实验

  • anchor-based选的是RetinaNet,anchor-free选的是FCOS。为了公平起见,首先将RetinaNet的anchor数减少为1.然后将FCOS采取的所有提升性能的trick都放到RetinaNet上(确实能够提升RetinaNet的性能),这样一来,两个模型就剩两个差别了,也就是上面所述三个因素的第二个和第三个,而两者之间的性能差距也降低到0.8%的AP(FCOS高一点)
  • 在pyramid的特征上,RetinaNet采取IOU来直接挑选positive anchor和negative anchor;而FCOS首先判断中心点是否在GT BOX内,再根据GTbox的大小是否处于当前feature level所负责的范围内,来判断该采取positive还是negative的监督。如果将这两个机制互换,即RetinaNet用FCOS的策略,能够提升0.8%的性能,而FCOS采取RetinaNet的策略,将降低0.9%的性能。由此可见这一因素的影响是anchor-based和center-based的方法在性能上的差距的主要原因。
  • 而对第三个因素进行对比实验发现,无论是RetinaNet还是FCOS,采取两种回归方式都不带来性能的变化,因此该因素是无影响的。
  • 对于第一个因素,文章同样进行了探究。发现若没有采取本文提出的判断机制(ATSS),确实多个anchor能够使得RetinaNet带来性能的提升。然而当判断机制修改为ATSS时,这一因素带来的影响则被抹消,无论是否采取多个anchor,对性能都没有影响。

新的判断方法——Adaptive Training Sample Selection(ATSS)

  • 因为判断positive还是negative影响挺大,所以要是能找到比FCOS的判断方法更好的方法,性能就能进一步提升。文章提出一个新的自适应方法:
  • 对于某个GTbox,首先在每个feature level都找到k个离GTbox的中心点最近的中心点,若一共有L个feature level,则一共有 k × L k\times L k×L 个中心点,这些中心点对应的bbox作为候选的positive。
  • 然后计算这 k × L k\times L k×L 个bbox与GTbox的IOU的大小,统计出均值m和标准差v,则设阈值为 g = m + v g=m+v g=m+v,然后在这 k × L k\times L k×L 个bbox中挑选出与GTbox的IOU大于g且中心点落在GTbox内部的box,标记为positive,其它所有的bbox都是negative。
  • 然后若某个bbox按上述方法被多个GTbox标注为positive,则仅保留其中IOU最高的那个GTbox作为配对。
  • 经过实验发现上述方法十分有效,并且,唯一的超参数k对结果影响并不大。在RetinaNet和FCOS上都能带来性能的提高。并且对FCOS做了两次实验,一次是只用了上述方法的第一部分,即选择候选 positive的部分,带来了0.8%的AP提升;然后应用完整的方法,一共带来了1.4%的AP提升。

题外话:虽然只是提出了一个小trick,但是很有用,在应用各种目标检测器时都可以试试这个trick,没有什么算力代价,如果能带来性能提升就很好。而且此外文章对FCOS中的trick也做了探究,发现应用到RetinaNet上也能带来性能的提升。因此本文对打比赛很有用,找到一个好的模型,把本文提到的一些trick给用上,可能就能够比其它用相同模型的人得到更好的分数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值