细粒度论文笔记 :MACNN 和 PDFR

两篇论文

1,H. Zheng, J. Fu, T. Mei and J. Luo, Learning Multi-attention Convolutional Neural Network for Fine-Grained Image Recognition, 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2018, pp. 5219-5227.
2,Zhang X, Xiong H, Zhou W, et al. Picking Deep Filter Responses for Fine-Grained Image Recognition[C], IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:1134-1142.

 

       1,Learning Multi-attention Convolutional Neural Network for Fine-Grained Image Recognition,ICCV2017

       目前的细粒度分类方法主要解决的是寻找具有区分的part和精细的特征学习。作者认为他们都忽视了part localication和feature learning 之间的相互关系。因此提出了一个新的part earning 方法,使用mutil-attention 卷积神经网络学习来产生part并进行特征学习,这样使二者都相互得到加强,称为MA-CNN模型。

       模型如下:

       输入一张图片(a)给网络,通过base network 产生feature map(b);将(b)中的各通道展开,以12个通道为例,得到(c),可见每个通道都有一个峰值响应区域(白色部分),同时有些通道的峰值响应区域相近(同一种颜色外框表示);文中通过堆叠的全连接层达到聚类效果,把相近的区域归为一类,如图(e),图中划为4类。同类的channel相加,取sigmoid(归一化到0-1)产probabilities,等效于产生4个空间注意区域,即4个mask(局部定位!),这四个mask分别和feature map 进行点乘,得到4个局部精细化的特征,分别进行分类。MA-CNN就是交替的学习,使对每个part的softmax分类损失,及对每个part的channel grouping loss(Lcng)收敛。

       这篇论文的亮点:1)利用feature map 不同通道(channels)关注的视觉信息不同,峰值响应区域也不同这一特点,聚类响应区域相近的通道,得到 attention part;2)提出了一个channel grouping loss,目的是让part内距离更近(intra-class similarity),不同part距离尽量远(inter-class separability)。

       该方法在实验中取得了很好的效果,在CUB-200,FGVC-Aircraft,Stanford Cars三个数据集上的准确率分别为86.5%,89.9%,92.9%,并和其他的state-of-art方法比较,均为效果最佳。

 

       2,Picking Deep Filter Responses for Fine-Grained Image Recognition.  CVPR 2016

       作者做了两大贡献。第一个是提出了新颖的自动part detection方法,这个part检测方法有两点贡献:

       第一,提出了新颖的检测学习初始化方法。作者先用原始的selective search方法提取一些patch,将它们送入VGG-M网络,查看conv4的输出。结果发现有些通道(channle)对一些特定图案相应,而有些响应十分混乱,对我们的任务没有帮助。作者的初始化方式的关键点就在于精巧地选择响应显著且一致的deep filters。

       第二,作者通过迭代地进行新的正样本的挖掘和正则化part models,学习一系列的detector。作者从每个类别挖掘正样本,并对每个正样本引进正则项,以考虑正样本的异同。学习之后的检测器可以发现有区别的和一致的patch,这对基于part的识别有帮助。

       第二大贡献,是采用了新的适用于细粒度图像识别的特征提取方法。传统的特征表达都使用CNN来实现,但CNN来提取不可避免地包含了大量背景信息,而且一些姿势变化和部分重叠都会影响到检测和识别。为了解决这个问题,作者将deep filter响应视为用于定位的描述符,将其通过Spatially Weighted Fisher Vector (SWFV-CNN)编码。通过SWFV-CNN,对识别很重要的部分会被强调,这样就可以实现让网络有条件地选择那些需要的描述符。

       整个框架结构如下。

       该框架的实现总共分两步:

       第一步是挑选出那些对特定图像响应明显且一致的deep filters,它们就作为weak detectors了。经过weak detectors后可以得到很多patch,从中精巧地选择语义上相似的正样本并训练discriminative detectors。选择正样本和训练分类器是迭代交替地进行的,其中每步都使用交叉验证以防止过拟合。训练后的discriminative detectors可以用来发现一些有助于识别的部分。

       第二步是通过SWFV挑选出有用的CNN filters。其中使用到了一个叫part saliency map的东西,它表明了一个像素属于前景部分的可能性有多大。

       作者在CUB-200和Stansford dogs上做了实验效果很好,分别取得了85.4%和71.96%的好成绩,也是当时的最佳效果。、

 

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值