细粒度论文笔记：MACNN 和 PDFR

最新推荐文章于 2024-06-07 07:34:40 发布

小星星*

最新推荐文章于 2024-06-07 07:34:40 发布

阅读量3.5k

点赞数 2

分类专栏：计算机视觉 Fine-grained image classification

本文链接：https://blog.csdn.net/zsx1713366249/article/details/85096094

版权

计算机视觉同时被 2 个专栏收录

30 篇文章 4 订阅

订阅专栏

Fine-grained image classification

17 篇文章 9 订阅

订阅专栏

两篇论文

1，H. Zheng, J. Fu, T. Mei and J. Luo, Learning Multi-attention Convolutional Neural Network for Fine-Grained Image Recognition, 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2018, pp. 5219-5227.
2，Zhang X, Xiong H, Zhou W, et al. Picking Deep Filter Responses for Fine-Grained Image Recognition[C], IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:1134-1142.

1，Learning Multi-attention Convolutional Neural Network for Fine-Grained Image Recognition，ICCV2017

目前的细粒度分类方法主要解决的是寻找具有区分的part和精细的特征学习。作者认为他们都忽视了part localication和feature learning 之间的相互关系。因此提出了一个新的part earning 方法，使用mutil-attention 卷积神经网络学习来产生part并进行特征学习，这样使二者都相互得到加强，称为MA-CNN模型。

模型如下：

输入一张图片（a）给网络，通过base network 产生feature map(b)；将(b)中的各通道展开，以12个通道为例，得到（c），可见每个通道都有一个峰值响应区域（白色部分），同时有些通道的峰值响应区域相近（同一种颜色外框表示）；文中通过堆叠的全连接层达到聚类效果,把相近的区域归为一类，如图（e），图中划为4类。同类的channel相加，取sigmoid（归一化到0-1）产probabilities，等效于产生4个空间注意区域，即4个mask（局部定位！），这四个mask分别和feature map 进行点乘，得到4个局部精细化的特征，分别进行分类。MA-CNN就是交替的学习,使对每个part的softmax分类损失，及对每个part的channel grouping loss（Lcng）收敛。

这篇论文的亮点：1）利用feature map 不同通道（channels）关注的视觉信息不同，峰值响应区域也不同这一特点，聚类响应区域相近的通道，得到 attention part；2）提出了一个channel grouping loss，目的是让part内距离更近（intra-class similarity），不同part距离尽量远（inter-class separability）。

该方法在实验中取得了很好的效果，在CUB-200，FGVC-Aircraft，Stanford Cars三个数据集上的准确率分别为86.5%，89.9%，92.9%，并和其他的state-of-art方法比较，均为效果最佳。

2，Picking Deep Filter Responses for Fine-Grained Image Recognition. CVPR 2016

作者做了两大贡献。第一个是提出了新颖的自动part detection方法，这个part检测方法有两点贡献：

第一，提出了新颖的检测学习初始化方法。作者先用原始的selective search方法提取一些patch，将它们送入VGG-M网络，查看conv4的输出。结果发现有些通道（channle）对一些特定图案相应，而有些响应十分混乱，对我们的任务没有帮助。作者的初始化方式的关键点就在于精巧地选择响应显著且一致的deep filters。

第二，作者通过迭代地进行新的正样本的挖掘和正则化part models，学习一系列的detector。作者从每个类别挖掘正样本，并对每个正样本引进正则项，以考虑正样本的异同。学习之后的检测器可以发现有区别的和一致的patch，这对基于part的识别有帮助。

第二大贡献，是采用了新的适用于细粒度图像识别的特征提取方法。传统的特征表达都使用CNN来实现，但CNN来提取不可避免地包含了大量背景信息，而且一些姿势变化和部分重叠都会影响到检测和识别。为了解决这个问题，作者将deep filter响应视为用于定位的描述符，将其通过Spatially Weighted Fisher Vector (SWFV-CNN)编码。通过SWFV-CNN，对识别很重要的部分会被强调，这样就可以实现让网络有条件地选择那些需要的描述符。

整个框架结构如下。

该框架的实现总共分两步：

第一步是挑选出那些对特定图像响应明显且一致的deep filters，它们就作为weak detectors了。经过weak detectors后可以得到很多patch，从中精巧地选择语义上相似的正样本并训练discriminative detectors。选择正样本和训练分类器是迭代交替地进行的，其中每步都使用交叉验证以防止过拟合。训练后的discriminative detectors可以用来发现一些有助于识别的部分。

第二步是通过SWFV挑选出有用的CNN filters。其中使用到了一个叫part saliency map的东西，它表明了一个像素属于前景部分的可能性有多大。

作者在CUB-200和Stansford dogs上做了实验效果很好，分别取得了85.4%和71.96%的好成绩，也是当时的最佳效果。、

小星星*

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
细粒度论文笔记：MACNN 和 PDFR

两篇论文1，H. Zheng, J. Fu, T. Mei and J. Luo, Learning Multi-attention Convolutional Neural Network for Fine-Grained Image Recognition,2017 IEEE International Conference on Computer Vision (ICCV), Veni...
复制链接

扫一扫