论文笔记(十五):Deep Convolutional Likelihood Particle Filter for Visual Tracking

文章概括

作者:Reza Jalil Mozhdehi and Henry Medeiros
来源:arXiv:2006.06746v1 [cs.CV] 11 Jun 2020;Marquette University, Milwaukee, WI, USA,
原文:https://arxiv.org/pdf/2006.06746.pdf
代码、数据和视频:
系列文章目录:
上一篇:
论文笔记(十四):PoseRBPF: A Rao–Blackwellized Particle Filter for 6-D Object Pose Tracking
下一篇:


摘要

我们提出了一种用于卷积相关视觉跟踪器的新型粒子过滤器。我们的方法使用相关响应图来估计似然分布,并将这些似然分布作为建议密度来对粒子进行采样。似然分布比基于目标过渡分布的提议密度更可靠,因为相关响应图提供了关于目标位置的额外信息。此外,我们的粒子过滤器在似然分布中搜索多种模式,这提高了目标闭塞情况下的性能,同时通过更有效的粒子采样降低了计算成本。在其他具有挑战性的场景中,如涉及运动模糊的场景,只有一种模式存在,但可能需要更大的搜索区域,我们的粒子过滤器允许似然分布的方差增加。我们在Visual Tracker Benchmark v1.1(OTB100)上测试了我们的算法,实验结果表明,我们的框架优于最先进的方法。

关键词: 似然粒子过滤器,高斯混合模型,深度卷积神经网络,相关响应图,视觉跟踪。


1. 介绍

粒子滤波器被广泛地应用于视觉跟踪问题,因为它们能够在具有挑战性的场景中找到目标,例如涉及到遮挡或快速运动的场景。最近,粒子过滤器被与深度卷积神经网络(CNN)[6,12]和相关过滤器[2,15,11,7]结合使用。Ma等人在[7]中提出的分层卷积特征跟踪器(HCFT)比以前的工作有明显的性能改进,证明了与相关滤波器一起使用卷积特征的有效性。相关滤波器提供了一个显示对应于图像斑块和目标的卷积特征之间相似性的地图[2,15,3]。如[16,14,8,10,9]所示,在卷积-相关视觉跟踪器中加入粒子过滤器可以显著改善其结果。在这些方法中,粒子过滤器对几个图像斑块进行采样,并通过对卷积响应图应用相关滤波器来计算每个样本的权重。

在这项工作中,我们提出了一种用于视觉跟踪的新型卷积-相关粒子滤波器,它从相关响应图中估计似然分布。从似然分布中取样的粒子提高了补丁候选人的准确性,因为相关响应图对目标位置有一个初始评价。因此,它们是比过渡分布更可靠的提议密度,通常用于粒子相关追踪器,如[16,14,8,10]。此外,这些跟踪器根据相关图的峰值来计算后验分布,而在计算粒子权重时不考虑它们。我们的粒子过滤器使用多模态似然分布解决了这个问题,以解决具有挑战性的跟踪场景。我们提出的算法还计算了一个具有较大方差的似然分布,这在其他涉及快速运动或背景杂波的挑战性场景中是有用的,因为它扩大了目标搜索区域。此外,这种方法还减少了所需粒子的数量。在Visual Tracker Benchmark v1.1(OTB100)[13]上的实验结果表明,我们提出的框架优于最先进的方法。


2. 卷积-相关粒子滤波器中支持度的变化问题

粒子过滤器中的粒子权重是通过[1]计算的

ω x t ( i ) ∝ ω x t − 1 ( i ) p ( y t ∣ x t ( i ) ) p ( x t ( i ) ∣ x t − 1 ) q ( x t ( i ) ∣ x t − 1 , y t ) , ( 1 ) ω^{(i)}_{x_t}∝ω^{(i)}_{x_{t-1}}\frac{p(y_t|x^{(i)}_t)p(x^{(i)}_t|x_{t−1})}{q(x^{(i)}_t|x_{t−1}, y_t)}, (1) ωxt(i)ωxt1(i)q(xt(i)xt1,yt)p(ytxt(i))p(xt(i)xt1),1

其中 p ( x t ( i ) ∣ x t − 1 ) p(x_t^{(i)}|x_{t-1}) p(xt(i)xt1) p ( y t ∣ x t ( i ) ) p(y_t|x^{(i)}_t) p(ytxt(i))是过渡分布和似然分布, q ( x t ( i ) ∣ x t − 1 , y t ) q(x^{(i)}_t|x_{t-1}, y_t) q(xt(i)xt1,yt)是用于对粒子进行采样的提议分布。然后,后验分布被近似为

P r ^ ( x t ∣ y t ) ≈ ∑ i = 1 N ω ‾ x t ( i ) δ ( x t − x t ( i ) ) , ( 2 ) \hat{Pr}(x_t|y_t)\approx \sum^N_{i=1} \overline{ω}^{(i)}_{x_t}δ(x_t-x^{(i)}_t), (2) Pr^(xtyt)i=1Nωxt(i)δ(xtxt(i)),2

其中 ω ‾ t ( i ) \overline{ω}^{(i)}_t ωt(i)是归一化的权重。然而,相关跟踪器中使用的粒子过滤器通常从过渡分布中采样粒子,即 q ( x t ( i ) ∣ x t − 1 , y t ) = p ( x t ( i ) ∣ x t − 1 ) q(x^{(i)}_t|x_{t-1}, y_t) = p(x^{(i)}_t|x_{t-1}) q(xt(i)xt1,yt)=p(xt(i)xt1)。这些方法还在每一帧对粒子进行重新采样,这就从公式1中删除了与以前的权重 ω x t − 1 ( i ) ω^{(i)}_{x_{t-1}} ωxt1(i)相对应的项。最后,这些跟踪器中每个粒子的权重由[16]给出

ω x t ( i ) ∝ p ( y t ∣ x t ( i ) ) , ( 3 ) ω^{(i)}_{x_t}∝p(y_t|x^{(i)}_t), (3) ωxt(i)p(ytxt(i)),3

其中 p ( y t ∣ x t ( i ) ) p(y_t|x^{(i)}_t) p(ytxt(i)) R x t ( i ) y t ∈ R M × Q R^{y_t}_{x_t^{(i)}}∈\mathbb{R}^{M×Q} Rxt(i)ytRM×Q的函数,是以 x t ( i ) x^{(i)}_t xt(i)为中心的相关响应图。在这些跟踪器中,粒子被转移到相关图的峰值上,然后后验分布由粒子在转移位置的权重来近似,即,

P r ^ ( x t ∣ y t ) ≈ ∑ i = 1 N ω ‾ x t ( i ) δ ( x t − x ‾ t ( i ) ) , ( 4 ) \hat{Pr}(x_t|y_t)\approx \sum^N_{i=1} \overline{ω}^{(i)}_{x_t}δ(x_t-\overline{x}^{(i)}_t), (4) Pr^(xtyt)i=1Nωxt(i)δ(xtxt(i)),4

其中 x ~ t ( i ) \widetilde{x}^{(i)}_t x t(i)是对应于第 i i i个粒子的相关响应图的峰值。然而,使用移位位置的后验分布必须考虑与新支持点对应的权重,而不是粒子的原始位置。也就是说,原始位置被用于权重计算,但移位的支持点被用于近似后验分布。为了解决这个问题,我们从似然分布中抽取粒子。从似然分布取样的粒子过滤器会产生更准确的粒子,但从似然分布取样并不总是可能的。幸运的是,卷积-相关跟踪器产生的相关图可以用于构建似然分布。


3. 可能性粒子过滤器

我们的算法根据先前估计的目标状态为当前帧生成一个初始相关响应图,以计算初始似然分布。也就是说,我们根据之前的目标状态从当前帧生成一个补丁,并使用CNN[12]从这个补丁中提取卷积特征。然后我们将这些特征与目标模型进行比较,计算出最终的相关响应图[7]。如图1所示,在大多数情况下(我们称之为 “简单帧”),相关响应图对应于一个具有突出峰值的尖锐高斯分布。在具有挑战性的场景(“困难的框架”)中,相关图比较宽,峰值不明显。我们需要在两种情况下一致地估计似然分布。为了解决这个问题,我们对相关反应图拟合一个高斯分布,同时忽略概率低于阈值 τ τ τ的元素。通过忽略低概率元素,我们减轻了背景对模型计算的影响。我们用以下方法计算相关反应图的平均值

µ ≈ ∑ i = 1 u q i s i ∑ i = 1 u q i , ( 5 ) µ \approx \frac{\sum^u_{i=1}q_is_i}{\sum^u_{i=1}q_i}, (5) µi=1uqii=1uqisi,5

其中 s i s_i si q i q_i qi代表相关反应图的元素和它们各自的概率, u u u是概率大于 τ τ τ的元素的数量。 然后反应图的方差由以下公式给出

σ 2 ≈ ∑ i = 1 u q i ( s i − µ ) 2 ∑ i = 1 u q i , ( 6 ) σ^2 \approx \frac{\sum^u_{i=1}q_i(s_i-µ)^2}{\sum^u_{i=1}q_i}, (6) σ2i=1uqii=1uqi(siµ)2,6

因此,我们的模型将低概率分配给可能属于背景的像素,而将相对高的概率分配给所有可能对应于目标的区域。因此,我们的样本集中在目标更有可能存在的区域。

图一

图1. 常见场景(简单帧)和涉及快速运动的挑战性场景(困难帧)的估计似然分布。

图1显示了我们对OTB100基准的Biker数据序列的两个不同帧的估计似然分布。在困难的帧中,目标经历了运动模糊,这导致相关响应图更宽,峰值更低。然后,我们的估计方差也相应提高,这有助于我们的跟踪器在更大的区域内对粒子进行采样,以补偿困难场景下的跟踪不确定性。图2中的例子显示了方差是如何随着目标接近困难帧而增加的。

图二

图2. 数据序列Jogging-1中估计的似然分布的标准偏差 的数据序列Jogging-1中估计的似然分布的标准偏差,OTB-100数据集。

尽管在诸如涉及快速运动的挑战性场景中允许更高的变异性有助于我们的跟踪器解决此类问题,但仅靠这种策略无法处理多模式的相关响应图。为了解决这个问题,我们建议使用下面描述的方法来确定分布的峰值。

3.1 多模态似然估计

相关响应图中多个峰值的存在通常表明帧的背景中存在混乱的元素,如图3的例子所示。在图中所示的画面中,当部分目标遮挡发生时,相关响应图中有两个峰值。这两个峰值对应于图像左侧的妇女(目标)和部分遮挡她的柱子。通过应用阈值从相关反应图中去除低概率元素,两个集群变得明显。

图三

图3. 一个包括目标遮挡的困难帧。其相关响应图有两个峰值。通过提高阈值以去除低概率元素,可以看到对应于目标和极点的两个群组。

为了识别相关地图的峰值,同时不考虑额外的背景杂波,我们从地图中移除概率低于阈值τ的点。然后我们对剩余的特征地图点拟合一个高斯混合模型,将它们聚成k组[5]。图4显示了相关反应图的两个实例,其中我们确定了k=2和k=3的群组。然后,对应于每个峰值的似然是由一个正态分布给出的,其平均值和方差由公式5和6给出。算法1总结了我们提出的估计每个簇的似然分布的方法。

算法一


图四

图4. 寻找集群;左边:有两个和三个集群的相关反应图,中间:通过拟合高斯混合模型得到的相关反应图的集群,右边:每个集群的估计似然分布。

3.2 粒子采样

我们从当前帧中的相关响应图得到的高斯似然分布中对粒子进行采样。一个粒子被从似然分布中抽样的概率由以下公式给出

p ( x t ( i ) ∣ y t ) ∝ ∑ j = 1 k N ( x t ( i ) ; µ j , σ j ) , ( 7 ) p(x^{(i)}_t|y_t) ∝ \sum^k_{j=1}\mathcal{N} \bigg (x^{(i)}_t; µ_j , σ_j\bigg ) , (7) p(xt(i)yt)j=1kN(xt(i);µj,σj),7

其中 μ j μ_j μj σ j σ_j σj是似然的第 j j j个模式的平均值和方差。我们为每个粒子生成一个补丁,并使用CNN提取其特征。在计算出每个粒子的相关响应图后,我们将粒子转移到它们各自的相关响应图的峰值上。每个相关响应图的峰值是基于以相应粒子为中心的补丁的估计目标位置。因为每个粒子都被移到了相关响应图的峰值,所以我们认为 p ( x ~ t ( i ) ∣ x t ( i ) ) = 1 p(\widetilde{x}^{(i)}_t|x^{(i)}_t) = 1 p(x t(i)xt(i))=1,其中 x ~ t ( i ) \widetilde{x}^{(i)}_t x t(i)是相应的相关响应图的峰值。因此, p ( x t ( i ) ∣ y t ) = p ( x ~ t ( i ) ∣ y t ) p(x^{(i)}_t|y_t)=p(\widetilde{x}^{(i)}_t|y_t) p(xt(i)yt)=p(x t(i)yt)

3.3 计算权重和后验分布

通过计算每个移位粒子的权重 x ~ t ( i ) \widetilde{x}^{(i)}_t x t(i),我们可以根据移位的粒子及其正确的权重准确地估计后验,这就解决了以前的工作中观察到的不正确的支持点问题。如前所述,公式1对应于移位前每个粒子的权重。然后,移位后的粒子的权重由以下公式给出

ω x ~ t ( i ) ∝ ω x t − 1 ( i ) p ( y t ∣ x ~ t ( i ) ) p ( x ~ t ( i ) ∣ x t − 1 ) q ( x ~ t ( i ) ∣ x t − 1 , y t ) , ( 8 ) ω^{(i)}_{ \widetilde{x}_t} ∝ ω^{(i)}_{x_{t−1}} \frac{p(y_t|\widetilde{x}^{(i)}_ t )p(\widetilde{x}^{(i)}_t |x_{t−1})}{q(\widetilde{x}^{(i)}_t |x_{t−1}, y_t) } , (8) ωx t(i)ωxt1(i)q(x t(i)xt1,yt)p(ytx t(i))p(x t(i)xt1),8

其中,由于我们在每一帧都进行了重采样,所以对应于前一个权重的项被移除。此外,[1]

q ( x ~ t ( i ) ∣ x t − 1 , y t ) = p ( x ~ t ( i ) ∣ y t ) . ( 9 ) q(\widetilde{x}^{(i)}_t|x_{t−1}, y_t) = p(\widetilde{x}^{(i)}_t|y_t). (9) q(x t(i)xt1,yt)=p(x t(i)yt).9

因此,每个移位的粒子的权重为

ω x ~ t ( i ) ∝ p ( y t ∣ x ~ t ( i ) ) p ( x ~ t ( i ) ∣ x t − 1 ) p ( x ~ t ( i ) ∣ y t ) . ( 10 ) ω^{(i)}_{\widetilde{x}_t }∝ \frac{p(y_t|\widetilde{x}^{(i)}_t)p(\widetilde{x}^{(i)}_ t |x_{t−1})}{p(\widetilde{x}^{(i)}_ t |y_t)} . (10) ωx t(i)p(x t(i)yt)p(ytx t(i))p(x t(i)xt1).10

让目标状态被定义为

z t − 1 = [ x t − 1 , x ˙ t − 1 ] T , ( 11 ) z_{t-1} = [x_{t-1},\dot{x}_{t-1}]^T, (11) zt1=[xt1,x˙t1]T,11

其中 x ˙ t − 1 \dot{x}_{t-1} x˙t1 x t − 1 x_{t-1} xt1的速度。我们对 z t − 1 z_{t-1} zt1采用一阶运动模型,其依据是

z ˉ t − 1 = A z t − 1 , ( 12 ) \bar{z}_{t-1}=Az_{t-1}, (12) zˉt1=Azt1,12

其中, z ˉ t − 1 \bar{z}_{t-1} zˉt1代表预测的目标状态, A A A是过程矩阵,定义为

A = [ I 4 I 4 0 ( 4 , 4 ) I 4 ] , ( 13 ) A=\bigg[ \begin{array}{c|c} I_4 & I_4 \\ \hline 0_{(4,4)} & I_4 \end{array} \bigg], (13) A=[I40(4,4)I4I4],13

其中 I 4 I_4 I4是一个 4 × 4 4×4 4×4的身份矩阵, 0 ( 4 , 4 ) 0_{(4,4)} 0(4,4)是一个 4 × 4 4×4 4×4的零矩阵。我们使用高斯分布 N ( x ‾ t − 1 , σ 2 ) \mathcal{N}(\overline{x}_{t-1}, σ^2) N(xt1,σ2)来寻找当前帧中每个估计粒子的概率 p ( x ~ t ( i ) ∣ x t − 1 ) p(\widetilde{x}^{(i)}_t|x_{t-1}) p(x t(i)xt1)

此外, p ( y t ∣ x ~ t ( i ) ) p(y_t|\widetilde{x}^{(i)}_t) p(ytx t(i))是每个移位的粒子的可能性。让 f x t ( i ) ( l , o ) f_{x_t^{(i)}}(l, o) fxt(i)(l,o)为每个粒子 x t ( i ) x^{(i)}_t xt(i)的卷积特征,其中 l l l o o o分别代表网络的层和通道。然后通过[7]计算相关响应图

R x t ( i ) y t ( x ) = ∑ l = 1 L Υ l ( F − 1 ( ∑ o = 1 O C t − 1 ( l , o ) ⊙ F ‾ x t ( i ) ( l , o ) ) ) , ( 14 ) R^{y_t}_{x^{(i)}_t}(x)=\sum^L_{l=1}Υ_l(\mathfrak{F}^{-1}(\sum^{O}_{o=1}C_{t-1}(l,o)\odot \overline{F}_{x_t^{(i)}}(l,o))), (14) Rxt(i)yt(x)=l=1LΥl(F1(o=1OCt1(l,o)Fxt(i)(l,o))),14

其中 F ‾ x t ( i ) ( l , o ) \overline{F}_{x^{(i)}_t} (l, o) Fxt(i)(l,o) f x t ( i ) ( l , o ) f_{x^{(i)}_t} (l, o) fxt(i)(l,o)的复共轭傅里叶变换, C t − 1 C_{t-1} Ct1是前一帧生成的模型, ⊙ \odot 代表Hadamard积, F − 1 \mathfrak{F}^{-1} F1是反傅里叶变换算子, Υ l \Upsilon_l Υl是一个正则化项[7]。然后, R x t ( i ) y t R^{y_t}_{x^{(i)}_ t} Rxt(i)yt的峰值通过以下方式计算

x ~ t ( i ) = arg max ⁡ m , q R x t ( i ) y t ( m , q ) , ( 15 ) \widetilde{x}^{(i)}_t = \argmax_{m,q}R^{y_t}_{x^{(i)}_t}(m,q), (15) x t(i)=m,qargmaxRxt(i)yt(m,q),15

其中 m = 1 , . . . , M m=1,...,M m=1,...,M q = 1 , . . . , Q q=1,...,Q q=1,...,Q x ~ t ( i ) \widetilde{x}^{(i)}_t x t(i)的可能性按[10]计算

p ( y t ∣ x ~ t ( i ) ) = 1 M × Q ∑ m , q R x ~ t ( i ) y t ( m , q ) . ( 16 ) p(y_t|\widetilde{x}^{(i)}_t)=\frac{1}{M×Q}\sum_{m,q}R^{y_t}_{\widetilde{x}^{(i)}_t}(m,q). (16) p(ytx t(i))=M×Q1m,qRx t(i)yt(m,q).16

然后,基于移位粒子和它们各自的权重的后验分布是

P r ^ ( x t ∣ y t ) ≈ ∑ i = 1 N ω ‾ x ~ t ( i ) δ ( x t − x ~ t ( i ) ) , ( 17 ) \hat{Pr}(x_t|y_t)\approx\sum^N_{i=1}\overline{ω}^{(i)}_{\widetilde{x}_t}δ(x_t − \widetilde{x}^{(i)}_t), (17) Pr^(xtyt)i=1Nωx t(i)δ(xtx t(i)),17

其中 ω ‾ x ~ t ( i ) \overline{ω}^{(i)}_{\widetilde{x}_t} ωx t(i) ω x ~ t ( i ) ω^{(i)}_{ \widetilde{x}_t} ωx t(i)的归一化版本。图5总结了我们方法的步骤,算法2描述了我们方法的细节

图五

图5. 拟议的DCPF-Likelihood视觉跟踪器的组成步骤概述

算法二


4. 实验结果

我们使用Visual Tracker Benchmark v1.1(OTB100)来评估我们的追踪器的性能。该基准包含100个视频序列,其中包括11个具有挑战性的场景。我们的结果是基于一次性评估(OPE),它使用第一帧中的地面真实目标尺寸和位置来初始化跟踪器。我们的评估是基于精确性和成功率的衡量标准,详见[13]。图6显示了我们的跟踪器与DCPF[8]、HCFT[7]和CNN-SVM[4]进行比较的定性结果。在图中所示的两个数据序列中,我们的方法都成功地处理了闭塞的情况。这些结果突出了使用更可靠的采样分布的影响。

图六

图6. 在两个具有挑战性的序列中,我们的跟踪器与DCPF、HCFT和CNN-SVM进行了定性评估。Human6(顶部)和Ironman(底部)。

图7显示了我们的追踪器与DCPF、HCFT和CNN-SVM比较的OPE结果。与第二好的跟踪器DCPF相比,我们在精度和成功率方面的总体性能改进分别为2.5%和2%。我们的方法在涉及遮挡(+3%)和背景杂波(+4.5%)的情况下尤其胜过DCPF。DCPF使用过渡分布作为提议密度,这是粒子相关跟踪器的一种常见方法。我们的结果表明,似然是一个更有效的提议分布。在涉及运动模糊和快速运动的场景中,我们比DCPF的性能改进分别约为4.5%和2%,因为我们的跟踪器增加了似然分布的方差,使粒子分散在更大的区域。我们的方法在涉及光照变化(+3%)、平面外旋转(+3.5%)和变形(+3%)的情况下也优于DCPF。我们的方法还降低了算法的计算成本。我们的跟踪器使用了100个粒子,这大大低于DCPF中使用的300个粒子。

图七

图7. 我们的跟踪器与三种最先进的方法进行了一次评估。

5. 结论

在这项工作中,我们提出了DCPF-Likelihood视觉跟踪器。我们的方法估计一个似然分布作为基于相关响应图的粒子过滤器的提议密度。相关响应图提供了对目标位置的初步估计,这导致了更准确的粒子。此外,所产生的似然分布在快速运动和运动模糊等具有挑战性的情况下具有更广泛的方差。我们的粒子过滤器在困难的情况下,如目标闭塞,也会为每个相关图簇产生一个似然分布。我们在OTB100数据集上的结果表明,我们提出的视觉跟踪器优于最先进的方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值