2. Related Work
关于细粒度图像识别的研究沿着两个维度进行,即判别性特征学习和复杂的局部定位。
2.1. Discriminative Feature Learning
学习判别性特征对于细粒度图像识别至关重要。由于深度学习的成功,大多数方法依赖于强大的卷积深层特征,
其在通用和细粒度识别上比手工制作的特征有着显着改善[4,5,6,17,29]。为了学习更强大的特征表示,深度残差网络[9]通过优化残差函数将CNN加深到152层,其将ImageNet测试集中的错误率降低到3.75%[17]。为了更好地建模细粒度类别中存在的微妙差异,最近提出一种双线性结构[19]来计算两个独立CNN的成对特征的相互作用来捕获图像的局部差异,这已经取得了鸟类分类中最先进的成果[30]。此外,另一种方法[34]提出用Fisher Vector[23]统一CNN与空间加权表示,显示了在鸟[30]和狗数据集[13]的优异结果。
其在通用和细粒度识别上比手工制作的特征有着显着改善[4,5,6,17,29]。为了学习更强大的特征表示,深度残差网络[9]通过优化残差函数将CNN加深到152层,其将ImageNet测试集中的错误率降低到3.75%[17]。为了更好地建模细粒度类别中存在的微妙差异,最近提出一种双线性结构[19]来计算两个独立CNN的成对特征的相互作用来捕获图像的局部差异,这已经取得了鸟类分类中最先进的成果[30]。此外,另一种方法[34]提出用Fisher Vector[23]统一CNN与空间加权表示,显示了在鸟[30]和狗数据集[13]的优异结果。
2.2. Sophisticated Part Localization
以前的工作主要集中在利用边界框和部分注释等额外注释来定位细粒度识别中的重要区域[10,18,22,30,32,33]。然而,手动注释的大量劳动使得此任务对于大规模的实际问题不可行。最近,出现了一些新的工作,旨在提出一个更一般的情况,并提出使用无监督的方法来挖掘注意力区域。基于视觉注意力的方法在两者上提出了一个两级域网对象和部分,其中通过聚类方案从CNN中的内部隐藏表示中学习部分模板[31]。 采用深度滤波器响应[34]和多维描述符[28]提出通过分析来自CNN的过滤器响应来以无监督的方式一致地响应特定模式来学习一组部分检测器。
空间变压器[11]进一步提出了一种动态机制,可以主动空间变换图像以进行更准确的分类。而现有的模式仍然难以准确地定位微妙的地区
由于它们的小尺寸。
我们最相关的作品来自[20]和[35]。
他们都建议放大歧视性的本地区域,以提高细粒度识别的表现。
然而,从[20]和[35]的区域定位者的学习依赖于预处理区域提案或类别标签,这对准确的区域定位提出了挑战。
空间变压器[11]进一步提出了一种动态机制,可以主动空间变换图像以进行更准确的分类。而现有的模式仍然难以准确地定位微妙的地区
由于它们的小尺寸。
我们最相关的作品来自[20]和[35]。
他们都建议放大歧视性的本地区域,以提高细粒度识别的表现。
然而,从[20]和[35]的区域定位者的学习依赖于预处理区域提案或类别标签,这对准确的区域定位提出了挑战。