查看原文:http://www.wyblog.cn/2017/02/17/%e6%96%87%e7%8c%ae%e7%ac%94%e8%ae%b0%e3%80%8awhat-makes-for-effective-detection-proposals%e3%80%8b/Abstract
这是一篇关于object detection的综述性文章,其一共列举了12种region proposal的方法,并在PASCAL、ImageNet、MS COCO等常见数据集上使用DPM、R-CNN and Fast R-CNN等框架进行深入分析,分析表明提高proposal 的localisation accuracy与提高reall同样重要。同时,文献提出了一种新的average recall评价标准,它综合了recall率、localisation精度。Introduction
目前最成功的的od方法还是众所周知的滑动窗口法,但是对一幅图基本需要10^4到10^5个窗口,如果考虑object的aspect ratio,那窗口又得增加到10^6到10^7个了。于是,顺势提出了“detection proposals”的方法,它是在保证高检测质量情况下同时减少计算量的折中办法。总结下,这篇文献的贡献就是,比较了几种不同的detection方法,讨论了 在图片受到扰动后detection的鲁棒性,提出了新的评价标准即AR并在数据集上验证。Detection proposal methods
文中说通常检测方法分为了两类:
- grouping methods,例如SelectiveSearch,其先对图片分隔,然后根据相邻region的相似性进行group操作。
- window scoring methods,例如Objectness,这种方式就是直接划定多个边框,然后打分取高者。
![](http://www.wyblog.cn/wp-content/uploads/2017/02/351ce3c063bfc9c5b3acf716ee7d2b7c.png)
grouping methods
作者将grouping methods又分了三类,分别为grouping superpixels(SP)、graph cut(GC)、edge contours(EC)。- SP方式无需学习,首先将图片分裂为superpixels形式,然后根据人为定义的距离参数进行聚合,类似于KNN。
- GC方式是将图片进行切割,切割的方式可以是通过随机初始化的种子点,然后反复多次,然后根据特征进行排序,这就导致了它的复杂度非常高,开销大。
- EC就是得到图像轮廓信息,然后再进行聚合,可能结果精确度不够高。
windows scoring methods
这个方法的思路与之前的有所不同,它是通过先生成候选框,然后通过计算候选框的置信度来过滤掉分数低的框,然后得到proposal的。比较出名的方法就是:- Objectness,直接从图片中选出salient lications作为proposals,然后根据colour、edges、location、size、superpixel straddling等进行打分。
- Bing,通过edge特征训练了一个简单的线性分类器,并将分类器应用到滑动窗口里面对窗口进行分类,速度非常快。然而研究表明,分类器实际上作用影响不是很大。
- EdgeBoxes,上文已经总结过,它不需要学习参数,通过计算边缘个数来进行打分排序筛选。
Alternative proposal methods
- Multibox,通过训练一个CNN回归出固定个数的proposals,避免了整幅图像的划窗,再进行打分过滤。
Baseline proposal methods
- SlidingWindow基于图片尺寸生成proposal,Uniform及Gaussian是stochastic(随机)的,只有Superpixels是基于图片内容的。
Proposal repeatability
这里的repeatability是指在图片经过各种修改加噪声之后或者就是一幅相似的图片,proposal出region的复现性属性。在比较各种算法之前,作者就通过各种算法的特性,使得每一种算法每次生成的proposal个数控制到一样。 重点在这个repeatability计算方式上,文献中定义,纵坐标是recall值,横坐标是IoU阈值(即为proposal框与ground true框的交叠率),绘制的曲线就是recall在每一个IoU阈值下的取值,取值范围两者都为0~1,而repeatability值就是绘制出的曲线下的面积。 文献给出了给图片加入perturbations的几种方式:![](http://www.wyblog.cn/wp-content/uploads/2017/02/3c3d82d6231a19138392bdd1e8bc791d.png)
Proposal recall
文献指出了传统的metrics(指标)已经不适用了,于是提出了三种新的metrics:- 对于固定数量的proposals,变化的IoU阈值对应的recall值。
- 对于固定的IoU阈值,对于不同proposal数量去计算recall值。
- 作者自定义方法,计算IoU阈值在0.5~1时recall的平均值。
![](http://www.wyblog.cn/wp-content/uploads/2017/02/f434553d78d8ace13c2fe8d2c0c8081c.png)
Using the DP
在这一部分,作者用了两种object detectors来分析以上那些detection proposals方法,第一种是LM-LLDA detector,它是DPM(基于部分行人检测)的一个变种,第二种是R-CNN/Fast R-CNN。文章中使用了1000个proposals作为实验样本,而实验目的则有两个,一是为了测试前文不同的proposal方法的效果如何,二是看看前文的各种metrics跟最后的detection结果的关联性如何。 这一部分实验过程及数据有些看不懂,待学习了检测框架后再反过来看。文献最后得出的结论是:![](http://www.wyblog.cn/wp-content/uploads/2017/02/d9b6bdbc73ba39eb3a0c8b990649249b.png)
- IoU值越高,表示proposal的框与ground true交集越大,能反映出的是它定位越准确,经过detector后的得分也越高,当然不同的detector有不同表现。
![](http://www.wyblog.cn/wp-content/uploads/2017/02/cdb7ec365774053c1f246858da3be089.png)
- 作者通过数据证明,mAP值与其自己提出的AR值具有强相关性,证明了AR值作为评价标准的合理性。
Discussion
- 对于repeatability这个指标,文献里实验的所有proposal methods都存在瓶颈,对图片做微小的改动,都会导致每次产生一系列不同的proposals出来。
- 对于Localisation Accuracy这个指标,其代表的其实就是IoU这个指标,当proposal定位越准确,那么对于OD来说越好。
- MCG,SeletiveSearch,EdgeBoxes,Rigor和Geodesic是目前表现最好的5个方法,其中速度以EdgeBoxes和Geodesic为优。
- 随着计算能力的增强,划窗方式势必是最直接有效的,还需要考虑其他优化算法吗?
文献地址
https://arxiv.org/abs/1502.05082
查看原文:http://www.wyblog.cn/2017/02/17/%e6%96%87%e7%8c%ae%e7%ac%94%e8%ae%b0%e3%80%8awhat-makes-for-effective-detection-proposals%e3%80%8b/