Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks-CSDN博客

本文链接：https://blog.csdn.net/weixin_47890036/article/details/121445364

本文探讨了显着性采样在解决细粒度分类问题中的优势，特别是在区分图像细微信息方面。通过在iNaturalist和CUB-200数据集上的实验，对比了ResNet-101、ResNet-50等模型与基线方法，结果显示显着性采样能有效提高分类准确率，尤其在ResNet-101上，top-1和top-5准确率分别提高了5%和3%。

摘要由CSDN通过智能技术生成

4.2 Fine-Grained Classification
细粒度分类问题提出了一个非常特殊的挑战：区分两类的信息通常隐藏在图像的很小一部分中，有时在低分辨率下无法解析。在这种情况下，显着性采样器可以发挥重要作用：放大图像的重要部分以尽可能多地保留它们的像素并帮助最终决策网络。在这个实验中，我们使用包含 5,089 种动物的 iNaturalist 数据集来研究这个问题 [29]。我们的评估是使用验证集进行的，因为测试集是私有的并且是为挑战而保留的。

在这个实验中，我们将在 ImageNet 数据集 [28] 上预训练的 ResNet-101 [4] 模型用于任务网络 ft，因为它在图像分类中表现出非常好的性能。我们对任务和显着性网络 ft 和 fs 使用了 227×227 的输入分辨率。作为显着网络 fS，我们使用 ResNet-18 的初始 14 层，尽管其他显着网络的性能可以在 Tbl.3 中找到。
表 3. 显着网络消融：我们测量了不同深度的显着网络 fs 对 iNaturalist 细粒度分类任务的影响。
作为此任务的基线，我们使用了与之前相同的方法，再次使用 ResNet-101 作为基础模型。对于可变形卷积网络，我们根据原始论文 [14] 中的说明进行了网络修改。我们还测试了 STN 的仿射和 TPS 版本（STN 仿射和 STN TPS）以及直接网格估计器。与我们的方法相同，这些基线可以在训练时间内访问原始 800×800 像素图像。在测试时，该方法获得了 512×512 像素的中心裁剪。为了公平起见，定位网络类似于 fs。为了测试单独的高分辨率输入是否可以提高基线 Resnet-101 网络的性能