【论文笔记】Blocks that Shout：Distinctive Parts for Scene Classification

最新推荐文章于 2021-03-21 10:12:25 发布

tic-toc

最新推荐文章于 2021-03-21 10:12:25 发布

阅读量3.4k

点赞数

本文链接：https://blog.csdn.net/xiaozhi_chen/article/details/12556669

版权

machine learning 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

object recognition

4 篇文章 1 订阅

订阅专栏

本文介绍了一篇关于中层特征挖掘的研究，通过seeding、expansion、selection三步找到具有鉴别性的场景部分。论文提出的方法在场景分类效果上优于以往的discriminative patch方法，并且训练效率更高。seeding阶段通过图像分割获取初始parts，expansion阶段使用exemplar-SVM迭代学习part detector，selection阶段通过entropy-rank评估鉴别性并选择最优part。最终构建bag of parts模型进行场景分类。

摘要由CSDN通过智能技术生成

论文：Juneja, M., & Vedaldi, A. (2013). Blocks that Shout: Distinctive Parts for Scene Classification. CVPR.

这是关于中层特征挖掘的论文，文中实验效果比上一篇ECCV 2012 上的discriminative patch 的方法要好，且训练效率高很多。

1. 中层特征挖掘分三个步骤：seeding、expansion、selection

1） seeding：使用[8]方法对图像进行在4个尺度下进行分割，将分割结果中面积为500-1500像素的区域作为初始parts，且将比较“平坦”的那些parts去掉（根据平均梯度幅度来衡量）。这种方法比随机采样得到的初始parts 要好很多。

2） expansion：得到初始parts 后，如何学习part detector ? 作者exemplar-SVM 来解决这个问题：首先使用一个part 来学习一个exemplar-SVM，接着去检测更多的part，然后再重新学习exemplar-SVM，依此迭代多次（10次）。作者还采用了LDA[2] 技术来加速这个训练过程。

3） selection：作者定义的discriminative 是指：在某个类别图像中出现频率高，而在其它类别图像中出现频率低。然而，具有区别性part并不一定只存在于一个类别中。例如，车轮是一个具有区别性的part，它既存在自行车类别中，也存在于摩托车类别中。为了衡量这个鉴别能力。作者提出entropy-rank 来作为衡量指标，它衡量的是某个part 在所有类别中的分布情况。如果某个part 在很多类别中都存在，即鉴别性较差，则熵会比较高；反之，如果仅在少数类别中存在，即鉴别性较高，则熵会比较低。具体定义是，对某个part 的检测器，假设其在训练图片中检测得分最高的r 个block 为(z_i, y_i)，z_i 和y_i 分别为第i 个block 的检测得分和所在图片的label。那么将这r 个block 按得分由高到低排列，则前r 个block 的entropy 为：

由此我们可以画出entropy-rank 曲线，如下图所示。

那么，如果曲线以下面积（AUC）越小，则该part 检测器的鉴别性越好。因此，我们只需选择AUC 最小的若干part 检测器即可。在这个选取过程中，有可能会出现相似的part 检测器同时被选中。作者采用余弦相似性来剔除相似的part 检测器。

2. 得到最有“鉴别性”的若干个part detectors 后，便可像BoW 那样构建bag of parts 模型，后面的分类过程就比较传统了。

Reference:

[1] T. Malisiewicz, A. Gupta, and A. A. Efros. Ensemble of exemplarsvms for object detection and beyond. In Proc. ICCV, 2011.

[2] B. Hariharan, J. Malik, and D. Ramanan. Discriminative decorrelation for clustering and classification. In Proc. ECCV, 2012. LDA加速

[3] F. Sadeghi and M. F. Tappen. Latent pyramidal regions for recognizing scenes. In Proc. ECCV, 2012. 基于鉴别性场景区域的表示

[4] S. Parizi, J. Oberlin, and P. Felzenszwalb. Reconfigurable models for scene recognition. In Proc. CVPR. CVPR, 2012.

[5] L.-J. Li, H. Su, E. Xing, and L. Fei-Fei. Object bank: A high-level image representation for scene classification&semantic feature sparsification. In Proc. NIPS, 2010. Object bank

[6] B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. In PAMI, 2012.

[7] K. E. A. van de Sande, J. R. R. Ujilings, T. Gevers, and A. W. M. Smeulders. Segmentation as selective search for object recognition. In Proc. ICCV, 2011.

[8] P. F. Felzenszwalb and D. P. Huttenlocher. Efficient graph-based image segmentation. IJCV, 59(2), 2004.

[10] M. Gharbi, T. Malisiewicz, S. Paris, and F. Durand. A gaussian approximation of feature space for fast image similarity. Technical Report 2012-032, MIT CSAIL, 2012.