A Survey of Appearance Models in Visual Object Tracking 阅读笔记(一)

AUTHOR:
XI LI, WEIMING HU, CHUNHUA SHEN, ZHONGFEI ZHANG, ANTHONY DICK, ANTON VAN DEN HENGEL

1.1 Overview of Visual Object Tracking
传统视觉目标跟踪系统由四个模块组成:目标初始化、外观建模、运动估计和目标定位。

(i)目标初始化:分为手动和自动。手动是人工使用bounding box或椭圆标注被跟踪目标初始位置,自动是通常由目标检测器完成。

(ii)外观建模:通常有两个组成部分:视觉表示和统计模型。视觉表示关注于怎样使用不同类型的视觉特征构造鲁棒的目标描述子,统计模型集中于怎样使用统计学习技术为了目标识别构建有效的数学模型。

(iii)运动估计:可以被公式化为动态状态的估计问题:xt = f(xt-1, vt-1)和 zt = h(xt, wt),其中xt是当前状态,f是状态进化函数,vt-1是进化过程噪声,zt是当前观测值,h是测量函数,wt是测量噪声。本过程的目的通常通过预测算法完成,例如线性回归技术,卡尔曼滤波,或粒子滤波。

(iv)目标定位:本过程是基于运动估计上的由贪心搜索或最大后验估计法表现出来的。

1.2 Challenges in Developing Robust Appearance Models

(i)低质量的摄像传感器(低帧率,低分辨率,低位深度,颜色失真);

(ii)challenging factors(非刚体目标跟踪,小尺寸目标,数量变化的目标,复杂姿态估计);

(iii)实时跟踪需求;

(iv)跨摄像头的不相重叠视角;

(v)目标外观变化(环境光照变化,快速镜头抖动,完全遮挡,噪声干扰,非刚体形状变形,平面外旋转和姿态变化);

针对出现在视觉目标跟踪的不同问题,视觉表示和统计模型技术五花八门,有不同属性和性质。然而,它们都是为了解决以下问题:
——什么属性/性质应该被跟踪(bounding box,椭圆,轮廓, 关节块, 兴趣点,剪影轮廓)?
——什么视觉表示对于视觉目标跟踪是合适的和鲁棒的?
——对于为了不同跟踪任务使用的不同视觉表示,有哪些优点和缺点?
——什么类型的统计学习模式对于视觉目标跟踪是合适的?
——这些统计学习模型在视觉目标跟踪过程中拥有哪些属性/性质?
——在跟踪过程中摄像头/目标运动应该怎样建模?

这里写图片描述

2.ORGANIZATION OF THIS SURVEY
视觉表示模块集中于如何鲁棒地描述目标外观的时空特性。这些视觉表示形式可以在不同的层次捕捉不同的视觉信息(local, global)。通常,local的视觉表示形式encode 一个图像区域的local统计信息(兴趣点),然而global的视觉表示形式反映出一个图像区域的global 统计性质(颜色直方图)。在第3节中,将详细介绍视觉表示法模块。

在统计建模模块中,多种基于不同统计建模技术的跟踪-检测方法被设计用来帮助统计目标/非刚体目标类型的统计属性。在第4节中,将详细介绍为跟踪-检测模式的统计建模模块。

为了使读者们更容易地安排实验,在第5节中大量视觉目标跟踪的源代码和视频数据被审查。

在第6节中,总结研究并且为未来的研究讨论几个有趣的问题。

这里写图片描述

2.1 Main Differences from Other Related Surveys
在最近的文献中,几个相关的研究调查了跟踪算法的最新发展水平和它们潜在的应用。如Table I。在这些研究中,[cannons 2008; Yilmaz et al. 2006]与本文非常相关。特别的,这两个研究都集中在使用不同视觉特征或统计学习技术的低层次跟踪技术,因此给出了非常综合和针对的技术贡献。

这两个研究和本文的主要不同点如下:
第一,本文集中于视觉目标跟踪的2D外观建模。相对的,上两篇研究则关心Figure 3中的所有模块。因此,本文是更加有针对性的而它们是较为广泛的;
第二,本文提供一个更加细节的多钟外观模型的分析;
第三,Yilmaz et al.[2006]的研究将视觉目标跟踪分为三类:点跟踪,核跟踪,剪影轮廓跟踪。Cannons[2008]的研究给出了在视觉目标跟踪中一个非常详细广泛的关于每个跟踪问题的回顾。相比于这两个研究,本文是用来使读者更容易抓住视觉目标跟踪的关键点的一个基于通用模块的架构;
第四,本文调查了大量外观模型的最新发展水平,充分利用了新颖的视觉特征和统计学习技术。相对的,其他研究[Cannons 2008; Yilmaz et al. 2006]更关注于视觉目标跟踪中经典和基础的外观模型。

3.VISUAL REPRESENTATION
3.1 Global Visual Representation
一个global的视觉表示形式反映目标外观的global统计性质。通常可以根据以下主要方面研究:

(i)原像素表示法:最简单有效的基础特征,直接利用原始像素的颜色或亮度值表示目标区域。在文献中通常由基于向量和基于数组的两种形式构成。基于向量的表示法直接将图像区域变“平”,使之成为一个高纬度的向量,但它却经常面临样本大小过小的问题。为了减轻这个问题,基于数组的表示形式因其具有相对来说低纬度的性质,而直接利用2D数组或高位张量作为目标描述的基本数据单元。

然而,单单靠原像素信息是不足以支撑鲁棒的视觉目标跟踪的。研究学者们尝试将其他cue(形状、纹理)加入到原像素表示法中。通常,颜色特征通过融合其他视觉信息(边缘,纹理)来丰富自己。


(ii)光流表示法:原则上,光流代表一个图像区域中所有像素的位移矢量的密集领域,它常被用来捕捉目标的时空运动信息。通常,光流有两个分支:恒定亮度约束光流(CBC)和非亮度约束光流(NBC)。CBC在光照不变性上有一个约束,然而NBC处理变化光照的情况。


(iii)直方图表示法:直方图表示法在视觉目标跟踪中非常流行因为他们在捕捉位于目标区域中的视觉特征分布性质的有效性和高效性。通常,他们有两个分支:单cue和多cue。

单cue:例如,Bradski[1998]为目标表示在HSV颜色空间中使用颜色直方图,并且使用这个颜色直方图在CAMSHIFT目标跟踪框架中。然而直接使用颜色直方图可能会造成空间信息的丢失。在Bradski[1998]基础上,Comaniciu et al.[2003]在RGB颜色空间中利用一种空间权重颜色直方图并且随后在基于mean shift的目标跟踪中为了目标状态推理而使用这种直方图。Zhao et al.[2010]将目标跟踪问题转化成在每一帧中匹配RGB颜色分布的问题。因此,目标定位由一种快速微分的EMD(Earth Mover’s Distance)算法,通过计算学习目标和候选区域的颜色分布相似度来完成。

多cue:目的在于编码更多的信息去加强视觉表示的鲁棒性。通常,它包含三个主要成分:

(a)空间颜色:两种策略,联合空间颜色建模策略,分块策略。联合空间颜色建模是去描述在联合空间颜色空间((x,y,R,G,B) [Yang et al. 2005; Georgescu and Meer 2004; Birchfield and Rangarajan 2005])中目标外观的分布属性。分块策略是通过将跟踪区域分割成一系列的块从而将空间信息编码入外观模型中。[Adam et al. 2006; Nejhum et al. 2010] 考虑到块之间的几何关系,它能够捕捉空间轮廓信息。例如,Adam et al. [2006]使用了一个基于直方图的特征描述来构造了一个分块视觉表示形式,如Figure 4。最终跟踪位置是由所有块(由灰度直方图表示)的vote map组合决定的。这个组合机制可以消除由遮挡产生的vote map异常值影响。为了计算的效率,Porikli[2005]介绍了一种新概念,关于在笛卡尔数据空间中计算所有可能目标区域直方图的一种积分直方图。这大大提升了在mean shift跟踪算法中的直方图匹配进程速度;

(b)空间纹理:一种联合空间纹理概率估计法被用来捕获目标外观的分布信息。例如,Haralick et al.[1973] 设计了一个空间纹理直方图表示法,称为灰度共生矩阵(GLCM),which encodes the co-occurrence information on pairwise intensities in a specified direction and distance。注意到,Haralick rt al.[1973]的GLCM在选定最佳的距离参数值前需要通过实验评估调节不同的距离参数值。在此基础上,Gelzinis et al.[2007] 设计了不需要仔细选择合适距离参数值的基于GLCM的直方图表示法。The proposed histogram representation gathers the information on the co-occurrence matrices computed for several distance parameter values;

(c)形状纹理:目标外观的形状、纹理信息被纳入鲁棒的目标跟踪中的直方图表示形式。例如,Haritaoglu and Filckner[2001]将梯度或边缘信息合并入了基于颜色直方图的视觉表示形式中。相似于此,Wang and Yagi[2008]使用了颜色和形状cues来构造了一个视觉表示方法。颜色cues由三种不同的颜色空间RGB, HSV, normalized rg中的颜色直方图组成。形状cue由梯度方向直方图描述。为了利用目标的纹理信息,Ning et al.[2009]设计了一种联合颜色纹理的直方图。这种局部二值模式(LBP)技术被用来识别目标区域的关键点。使用识别出的关键点,他们为联合颜色纹理特征的选择建立了confidence mask;


(iv)协方差表示法:


(v)基于小波滤波器的表示法:


(vi)主动轮廓表示法:


3.1.1 Discussion
除开特征提取,原像素表示法是视觉目标跟踪简单效率高的。然而只考虑了目标外观的颜色信息,原像素表示法是对于由关照变化产生的复杂外观变化是敏感的。

CBC光流法使用对局部光照不变性的潜在假设捕获在区域中每个像素的平移向量信息。然而CBC假设在由图像噪声、光照波动和局部变形产生的复杂环境下常常是不合理的。为了解决这个问题,NBC被发展用来介绍在像素间上下文关联上更多的几何约束。

单cue直方图表示法是可以高效编码目标区域中视觉特征的统计分布信息的。由于它难以描述跟踪目标的空间结构信息,所以它常常被拥有与目标相似颜色的背景所干扰。为了捕获更多的空间信息,引入了空间颜色直方图表示法。通常,这种方法编码空间信息通过两个两种方法:使用联合颜色特征空间对目标外观建模,使用分块策略。然而,前面描述的直方图表示法都不考虑目标外观的形状或纹理信息。因此,区分拥有相似颜色分布的背景和目标是非常困难的。为了解决这个问题,形状纹理直方图表示法集合了形状和纹理信息(梯度、边缘),使目标外观在光照变化、姿势变化中有更好的鲁棒性。

使用协方差矩阵表示法的优点如下:
(a)可以捕捉目标外观内在自相关的属性;
(b)提供融合来自不同模型下的不同图像特征高效的方式;
(c)低维,导致计算高效性;
(d)允许对比不同大小或形状的区域;
(e)易于实现;
(f)对于光照变化、遮挡、形状变形鲁棒;

其缺点如下:
(a)由于是pixel-wise策略,所以对噪声干扰敏感;
(b)丢失许多有用的信息,例如纹理、形状、位置;

基于小波滤波的表示法是用小波变换编码目标外观的local纹理信息,而这种小波变化是通过多种小波滤波的卷积。因此,这种方法能够在多尺度和方向中描述目标外观的统计属性。(如Gabor filtering)

主动轮廓表示法被用来处理非刚体目标跟踪问题。通常这种方法采用有符号的距离图来隐式编码目标的边界信息。在水平集演化的基础上,主动轮廓表示法可以使用复杂形状精确地分段目标。

3.2 Local Feature-Based Visual Representation
如Figure 6所示,基于local特征的视觉表示法主要利用兴趣点或显著性检测来编码目标外观信息。通常,基于兴趣点的local特征主要被分为八个类型:

(i)基于local模板:
(ii)基于分段:
(iii)基于SIFT:
(iv)基于MSER:
(v)基于SURF:
(vi)基于角点:
(vii)基于local特征池:
(viii)基于显著性检测:

3.2.1 Discussion
由于使用不同的特征,上述表示法都具有不同的性质和特点。通过部分模板集表示目标外观,基于local模板表示法可以编码目标外观local空间轮廓信息,在部分遮挡情况下有鲁棒性。通过图像分割,基于分段表示法可以很好地捕获目标外观的内在结构信息(目标边界、超像素),在具有挑战的情况下得到可靠的跟踪结果。由于SIFT特征在图像缩放,部分遮挡,光照变化,3D摄像头视角变化的情况下具有不变性,基于SIFT表示法在光照、形状变形、部分遮挡下具有鲁棒性。然而,它不能编码精细的目标信息,例如大小、方向、姿势。基于MSER表示法尝试为了匹配特征而在帧间寻找区域中几个最大的稳定极值。因此,它可以对像素噪声不敏感但对光照变化敏感。基于SURF表示法是在加速鲁棒特征基础上的,拥有尺度、旋转不变性和计算高效性的性质。基于角点表示法目的在于寻找一系列角点特征用作特征匹配。因此,它适于跟踪拥有大量角点的目标(轿车、卡车),且对非刚体形变和噪声敏感、基于特征池表示法很大程度上与需要大量local特征(颜色、纹理、形状)的基于特征选择的综合学习相关。由于使用许多特征,特征提取和选择的进程计算缓慢。基于显著性表示法目的在于为了特定的目标找到判别显著的区域池。通过匹配帧间显著区域可以达成目标定位。然而它的缺点是过于依赖对噪声或光照突变敏感的显著性区域检测。

3.3 Discussion on Global and Local Visual Representations
通常,global视觉表示法对于快速目标跟踪是简单且计算高效的。由于其附带的global几何约束,global视觉表示法对于global外观变化(光照变化、平面外旋转)非常敏感。为了解决复杂外观变化,一个多cue策略被global特征用来将多类型的视觉信息(位置、形状、纹理、几何结构)合并成那些外观模型。

相对的,local表示法可以捕获local结构化的目标外观。因此local视觉表示法对由光照变化、变形、旋转、部分遮挡引起的global外观变化鲁棒。因为需要关键点检测,基于兴趣点的local表示法常被噪声干扰和背景分散所干扰。更多的,通常需要判别式特征提取的基于local特征池表示法,需要大量的local特征(颜色、纹理、形状),导致了非常高的计算消耗。受到生物学视角启发,local表示法尝试使用生物特征捕获在目标区域中显著或内在的结构化信息。这种显著信息在视觉目标跟踪过程中是相对稳定的。然而,显著性区域特征严重依赖对噪声或光照突变敏感的显著性区域检测,导致存在许多潜在的帧间不匹配特征。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值