ATSS论文阅读笔记_keypoint-based和center-based区别-CSDN博客

本文链接：https://blog.csdn.net/weixin_44326452/article/details/119326229

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection 论文阅读笔记

这是CVPR2020的文章

文章三个贡献，首先指出了anchor-based方法与anchor-free方法在性能上的决定性差异在于positive和negative sample的判断机制，如果采取相同的判断机制，那么这些方法将没有性能差别，对anchor进行回归和对点进行回归并不带来性能的区别。为此，文章提出一种判断positive和negative sample的机制，从而使得目标检测的性能有了大幅提升，这是第二个贡献。第三个贡献是分析了在同一个位置上定义多个不同形状大小的anchor的必要性（分析结果是——没有必要）。
anchor-free方法大致可以分为两种，一种是keypoint-based，一种是center-based，keypoint-based和anchor-based差别太大，bridge不起来，所以其实本文所指的是anchor-free中的center-based方法，这部分方法与anchor-based方法的区别主要在三个地方：
1. center-based在同一点地方只预测一个bbox，而anchor-based在同一个点堆叠了多个anchor
2. anchor-based的方法多数使用IOU来判断positive和negative sample，而center-based的方法则一般根据center的位置和所在的feature level与GTbox的大小关系来判断
3. anchor-based的方法回归的是与anchor的误差，而center-based的方法直接预测其长宽。
经过控制变量探究发现这三个因素，只有第二个因素影响较大，其它两个因素对网络性能影响不大

对比实验

anchor-based选的是RetinaNet，anchor-free选的是FCOS。为了公平起见，首先将RetinaNet的anchor数减少为1.然后将FCOS采取的所有提升性能的trick都放到RetinaNet上（确实能够提升RetinaNet的性能），这样一来，两个模型就剩两个差别了，也就是上面所述三个因素的第二个和第三个，而两者之间的性能差距也降低到0.8%的AP（FCOS高一点）
在pyramid的特征上，RetinaNet采取IOU来直接挑选positive anchor和negative anchor；而FCOS首先判断中心点是否在GT BOX内，再根据GTbox的大小是否处于当前feature level所负责的范围内，来判断该采取positive还是negative的监督。如果将这两个机制互换，即RetinaNet用FCOS的策略，能够提升0.8%的性能，而FCOS采取RetinaNet的策略，将降低0.9%的性能。由此可见这一因素的影响是anchor-based和center-based的方法在性能上的差距的主要原因。
而对第三个因素进行对比实验发现，无论是RetinaNet还是FCOS，采取两种回归方式都不带来性能的变化，因此该因素是无影响的。
对于第一个因素，文章同样进行了探究。发现若没有采取本文提出的判断机制（ATSS），确实多个anchor能够使得RetinaNet带来性能的提升。然而当判断机制修改为ATSS时，这一因素带来的影响则被抹消，无论是否采取多个anchor，对性能都没有影响。

新的判断方法——Adaptive Training Sample Selection（ATSS）

因为判断positive还是negative影响挺大，所以要是能找到比FCOS的判断方法更好的方法，性能就能进一步提升。文章提出一个新的自适应方法：
对于某个GTbox，首先在每个feature level都找到k个离GTbox的中心点最近的中心点，若一共有L个feature level，则一共有 $k\times L$ 个中心点，这些中心点对应的bbox作为候选的positive。
然后计算这 $k\times L$ 个bbox与GTbox的IOU的大小，统计出均值m和标准差v，则设阈值为 $g = m + v$ ，然后在这 $k\times L$ 个bbox中挑选出与GTbox的IOU大于g且中心点落在GTbox内部的box，标记为positive，其它所有的bbox都是negative。
然后若某个bbox按上述方法被多个GTbox标注为positive，则仅保留其中IOU最高的那个GTbox作为配对。
经过实验发现上述方法十分有效，并且，唯一的超参数k对结果影响并不大。在RetinaNet和FCOS上都能带来性能的提高。并且对FCOS做了两次实验，一次是只用了上述方法的第一部分，即选择候选 positive的部分，带来了0.8%的AP提升；然后应用完整的方法，一共带来了1.4%的AP提升。

题外话：虽然只是提出了一个小trick，但是很有用，在应用各种目标检测器时都可以试试这个trick，没有什么算力代价，如果能带来性能提升就很好。而且此外文章对FCOS中的trick也做了探究，发现应用到RetinaNet上也能带来性能的提升。因此本文对打比赛很有用，找到一个好的模型，把本文提到的一些trick给用上，可能就能够比其它用相同模型的人得到更好的分数。