论文笔记BING( Binarized normed gradients)与BING-E

1 简介

本文主要基于论文《BING: Binarized normed gradients for objectness estimation at 300fps》翻译总结。BING可以用来生成图片的object proposal,物体识别的前奏。

BING的好处主要是其运算速度快,同时识别的object proposal具有一般性,应用于不同的物体。

BING(binarized normed gradients 二值化标准梯度)。对于物体的识别,比如RPN模型,其检测效果依赖于大量的ground-truth 标注,这样就导致RPN的检测效果不具有一般性,即训练过的物体可以识别,换一种其他物体就很难识别。而BING就尝试提出一种具有一般性的物体建议(object proposal)检测方法,其采用normed gradients作为特征。

一个好的通用的物体检测方法应该有以下特点:

  1. 高的物体检测率(DR,object detection);
  2. 高的proposal localization 准确率,通过ABO(average best overlap)或者MABO(mean ABO)来衡量。
  3. 高的计算效率,可以用于实时、大规模应用。
  4. 产生小数量的proposal,方便后续处理。
  5. 识别具有一般性,包括应用于没看见(训练)过的物体分类。

BING可以说借鉴了人类视觉系统,在物体的具体识别前,先发现可能的物体定位。

我们发现拥有很好边界的物体,他们的normed gradients有非常强的相关性。BING就是基于此。

BING+MTSE是结合了region的概念,提高了object proposal准确率;

BING-E是在BING+MTSE基础上使用了SLIC。SLIC是一个流行的superpixel 生成方法。超像素(superpixel)由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。这些小区域大多保留了进一步进行图像分割的有效信息,且一般不会破坏图像中物体的边界信息。超像素就是把一幅像素级(pixel-level)的图,划分成区域级(district-level)的图,是对基本信息元素进行的抽象。

下图是BING-E识别的例子。
在这里插入图片描述

2 相关工作

Object proposal产生的方法主要分为两类,一种是基于region的,一种是基于边缘的。基于region的方法使用bounding box。

3 BING

3.1 图像梯度

先介绍下图像梯度这个概念。
图像梯度可以把图像看成二维离散函数,图像梯度其实就是这个二维离散函数的求导:
图像梯度: G(x,y) = dx(i,j) + dy(i,j);
dx(i,j) = I(i+1,j) - I(i,j);
dy(i,j) = I(i,j+1) - I(i,j);
其中,I是图像像素的值(如:RGB值),(i,j)为像素的坐标。
图像的梯度相当于2个相邻像素之间的差值。
图像边缘一般都是通过对图像进行梯度运算来实现的。

3.2 Normed gradients(NG)

我们发现一个物体的normed gradient有很强的识别特性。应用NG的步骤如下:

  1. 将输入的图片改变不同的大小,如下图b。
  2. 对b中的每个不同大小的图片计算normed gradient。normed gradient的每个88区域形成一个64D的向量,作为NG特征。可以发现船(或者人),其不同尺度图片生成的88 NG类似,有很大的相似性。
    在这里插入图片描述

NG的特点:

  1. 无论一个物体如何改变其位置、尺度、纵横比,它的NG 特征都基本保持不变。
  2. NG特征的密集、紧凑的表现形式,使其计算效率很高,易验证。

NG的缺点:
NG会有识别能力的损失,所以可以作为一个预处理过滤器。比如就是提供proposal。

3.3 用NG学习物体测量

有两个公式如下:
在这里插入图片描述
在这里插入图片描述

其中:i代表上图b中不同大小的图片,w是要学习FN特征的线性模型(上图d),gl表示FN特征,sl是过滤器分数,ol是物体测量分数(objectness score),或者叫校准的过滤器分数,vi是要学习的系数,ti是偏置量。

有两个级联的SVM,第一步是公式1,通过线性SVM学习w;第二步,使用公式3,通过线性SVM学习vi,ti。

沿着w边界的大的权重有利于形成分界线,将物体(中心)从背景(周围)区分。

3.4 Binarized normed gradients(BING)

BING是NG的提升版本。此部分公式复杂,大体是把NG进行了二值化。

  1. 首先将w换成如下公式:
    在这里插入图片描述

  2. 接着,引入一个二值化特征b,w和b的公式如下:
    在这里插入图片描述
    在这里插入图片描述

  3. 在3.3节说了w和gl的关系,现在w和b有关系了,下面再列下gl和b的关系。
    在这里插入图片描述

  4. 另外sl的公式可以用下面形式近似计算:
    在这里插入图片描述

  5. 下图是BING特征示例,采用二值化、位运算提升了算法的效率。
    在这里插入图片描述

3.5 用region加强BING

BING在proposal定位上表现乏力,有如下两个原因,一是各种物体的形状不同,NG不能充分表达这种特性;另一个原因是BING设计时只测试了有限的量化窗口大小,但是物体的大小各异,BING不能覆盖全部物体。

所以提出了一个MTSE(multi-thresholding straddling expansion)方法,利用分割(bound ing box)来改善object proposal。

3.6 BING-E

但MTSE因为分割的原因,计算慢。又引进了SLIC方法。SLIC是一个流行的superpixel 生成方法。在MTSE基础上,采用SLIC的BING,取名BING-E。

4 实验结果

可以看到BING-E达到了很好的效果,尤其是运算速度快。

在这里插入图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值