Learning Dynamic Siamese Network for Visual Object Tracking全文翻译

三毛丶坨

已于 2022-07-15 14:38:43 修改

阅读量439

点赞数 1

分类专栏：目标跟踪文章标签：计算机视觉

于 2022-07-11 17:27:06 首次发布

本文链接：https://blog.csdn.net/weixin_44294645/article/details/125722345

版权

目标跟踪专栏收录该内容

8 篇文章 0 订阅

订阅专栏

摘要

如何有效地学习目标外观的时间变化，排除杂乱背景的干扰，同时保持实时响应，是视觉目标跟踪的一个重要问题。最近，Siamese 网络显示出基于匹配的跟踪器在实现平衡精度和超越实时速度方面的巨大潜力。然而，它们在容忍物体和成像条件的时间变化方面与基于分类和更新的跟踪器仍有很大差距。在本文中，我们通过快速转换学习模型提出了动态连体网络，该模型能够有效地在线学习目标外观变化和先前帧的背景抑制。然后，我们提出了逐元素多层融合，以使用多层深度特征自适应地集成网络输出。与最先进的跟踪器不同，我们的方法允许使用任何可行的一般或特别训练的特征，例如 SiamFC 和 VGG。更重要的是，所提出的动态连体网络可以直接在标记的视频序列上作为一个整体进行联合训练，从而可以充分利用运动物体丰富的时空信息。因此，我们的方法在 OTB-2013 和 VOT-2015 基准测试中实现了最先进的性能，同时与最先进的竞争对手相比表现出卓越的平衡准确性和实时响应。

1.简介

视觉跟踪旨在跟踪任意时间变化的对象，目标仅在第一帧指定。由于对象及其上下文的潜在变化基本上是未知的并且不断发生，这个问题对于许多计算机视觉任务非常有用，例如监控、视频分析和增强现实，可能非常具有挑战性。一般来说，根本问题是如何构建一个能够容忍目标外观变化、排除背景干扰、同时保持实时跟踪响应的跟踪器。
在这里插入图片描述
图 1. 基于最先进匹配的跟踪器（GOTURN [15] 和 SiamFC [2]）、基于深度分类和更新的跟踪器（MDNet [22] 和 Deep SRDCF [6]）的两个跟踪示例，以及建议的方法（DSiam）。显示了地面实况和每个跟踪器在每帧上的跟踪结果之间的联合交集（IoU）。当相似对象共存（第一种情况）或目标发生显着变化（第二种情况）时，前两种基于匹配的方法很容易错过对象。该表显示了在 NVIDIA TITAN X 平台上测量的平均跟踪速度，以及所有比较跟踪器在 OTB-2013 数据集 [30] 上的准确度、AUC 分数。 R-MDNet 表示在 ILSVRC 数据集 [23] 上重新训练的 MDNet。有关详细信息，请参阅文本。

有两种主要的视觉跟踪策略[19]。第一个采用经典的分类和更新管道，它维护一个在线更新的分类器 [29, 13] 或对象外观模型 [34]，以优化选择最可能的候选样本作为下一帧的跟踪对象 [18, 30 ]。最近，这种分类和更新跟踪方案已经通过在线微调深度网络开发，因此通过转移一些预训练网络 [14, 25, 11] 获得了更好（或最好）的跟踪精度 [18] ] 用于特定的跟踪任务 [28, 21, 17] 或通过直接学习特定的跟踪网络 [22]。然而，由于令人满意地微调深度网络的成本很高，这种方法通常非常慢，因此对于现实世界的在线跟踪任务是不可行的。例如见图 1。最先进的深度分类和更新跟踪器，例如 MDNet [22]、DeepSRDCF [6] 和 STCT [28]，只能以 1-2fps 的速度运行，尽管它们确实达到了最佳精度。 1

第二个成熟的策略是基于匹配的跟踪，将候选样本与目标模板匹配，无需在线更新。这种跟踪器最显着的优势是它们的实时速度 [2, 15]。最近，基于匹配的跟踪也可以使用深度模型来提高匹配泛化能力[26,2,15,4]。他们应该学习一个通用的匹配函数来容忍对象的在线变化，同时保持实时响应能力.最近一个成功的模型是 Siamese 网络，SiamFC [2]，它实现了有希望的跟踪精度和超越实时速度。然而，基于匹配的跟踪固有地缺乏重要的在线适应性，因此不能很好地捕捉物体、背景或成像条件的时间变化。这使得它们与基于分类和更新的跟踪器相比仍然存在很大的准确性差距。如图 1 所示，当相似对象共存于目标邻域或对象发生显着变化时，基于匹配的跟踪器容易失败，因为这些因素很容易扰乱预学习的匹配模型，即使对于状态-最先进的 SiamFC [2]。适应目标外观变化的一个简单的解决方案是用从先前帧[15]获得的跟踪结果替换目标模板。但是，跟踪结果并不总是正确的。不可避免的跟踪错误很容易使这种幼稚的适应策略偏离目标对象。
在本文中，我们展示了基于匹配的跟踪可以实现可靠的在线自适应。具体来说，我们提出了动态 Siamese 网络，即 DSiam，它具有快速的通用转换学习模型，能够有效地在线学习目标外观变化和来自先前帧的背景抑制。由于变换学习可以在 FFT 域封闭形式中快速解决，除了有效的在线适应能力外，它的速度非常快，并且确实作为单个网络层，因此可以与整个网络联合微调。我们的第二个贡献是逐元素多层融合，它自适应地集成了 DSiam 网络的多层深度特征。第三，除了大多数基于匹配的跟踪器（其匹配模型是在图像对上训练的）之外，我们为提出的 DSiam 网络开发了一个完整的联合训练方案，可以直接在标记的视频序列上作为一个整体进行训练。因此，我们的模型可以充分考虑训练视频中运动物体的丰富时空信息。对真实世界基准数据集的广泛实验验证了我们方法的平衡和卓越性能。
在这里插入图片描述
图 2.我们的 DSiam 网络（橙色线）和 SiamFC [2]（黑色虚线）的基本管道。 f^l(·) 表示在第 l 层提取深度特征的 CNN。我们分别为两个分支添加目标外观变化 (Vlt-1) 和背景抑制 (Wlt-1) 转换。从第 t-1 帧快速学习到两个变换。当第 t 帧（红色框）处的目标与模板 O1 完全不同时，SiamFC 得到一个无意义的响应图，在其中无法检测到任何目标。相比之下，我们的方法仍然可以在第 t 帧捕获目标。

2.相关工作

基于连体网络的跟踪。 基于连体网络的跟踪器 [2, 26] 通过在图像对上离线学习的匹配函数从候选块中选择目标。匹配函数通常由共享参数并指示目标模板 O1 ∈ 之间的相似性的两分支 CNN 制定 ℜm×n×3 和从第 t 帧中的搜索区域 Zt ∈ ℜmz×nz×3 裁剪的候选块。 O1 是第一帧给出的目标模板。 SiamFC [2] 使用完全卷积策略来实现这个过程。我们用黑色虚线简要回顾了图 2 中的 SiamFC，并将其表述为
在这里插入图片描述
其中 Slt 是一个响应图，表示 O1 和 Zt 中的候选补丁之间的相似性； fl(·) 表示一些经过适当训练的 CNN 模型的第 l 层深度特征，例如AlexNet 和 VGG； corr(·) 是可以被其他度量函数替换的相关运算，例如SINT [26] 中使用的欧几里得距离。尽管 SiamFC 可以超越实时运行，但由于缺乏在线适应能力，其跟踪精度与最先进的分类和更新跟踪器仍有很大差距。尽管 SINT 实现了更高的跟踪精度，但它利用了光流并且比 SiamFC 慢得多（约 2fps）。最近，GOTURN [15] 提出使用 Siamese 网络从前一帧回归目标边界框，并且可以以 100fps 的速度运行。然而，与最先进的基于分类和更新的跟踪器相比，它在基准上的跟踪精度要低得多 [13, 6]。或者，我们建议通过将两个在线可更新转换分别引入两个分支来学习动态连体网络，然后使用离线学习的元素权重图将其扩展到多层。图 2 简要说明了我们使用单层深度特征的管道。此外，通过对视频序列的联合训练，我们的模型以实时速度实现了最先进的跟踪性能。
基于深度相关的跟踪。相关滤波能够通过循环卷积实现快速跟踪，可以在频域快速求解，例如MOSSE [3]、KCF [16]、STC [32]、DSST [5]、Staple [1]。最近，HCF [21] 进一步将这种更新策略扩展到预训练的多级深度特征，并实现了接近实时的速度（约 10fps）。虽然我们也使用循环卷积来实现快速变换和参数学习，但我们的模型与之前的相关过滤跟踪器不同。首先，我们使用循环卷积将深层特征回归到另一个特征，旨在捕获目标变化或抑制背景干扰。相比之下，大多数相关滤波跟踪器使用循环卷积将特征回归到固定的高斯热图并直接获取目标位置。其次，HCF [21] 已经证明可以融合来自多层深度特征的响应图以获得更好的性能。但是，它使用人工和固定参数以分层方式融合这些响应。相反，我们建议离线学习元素融合权重图。第三，我们建议直接在视频序列上联合训练我们的模型（网络权重和模型参数），而不是使用预训练的 CNN 作为深度特征提取器，这对于跟踪问题更有效。

3.动态孪生网络

3.1.概述

我们根据前一帧的信息，将视觉跟踪视为快速模板匹配和在线变换学习的联合问题。因此，超越了原始的静态连体匹配模型方程。 (1)，我们将其扩展为动态的连体匹配过程，
在这里插入图片描述
其中，如前所述，Slt 是响应图，指示目标在第 t 帧的可能位置； * 表示循环卷积，可以在频域中快速求解，并且不改变输入 [12] 的大小。与等式相反。 (1)，我们引入了两个变换，Vlt-1 和 Wlt-1，分别更新目标模板 O1 和搜索区域 Zt 的深层特征。 Vlt-1 旨在鼓励 fl(O1) 与 fl(Ot-1) 相似，并通过考虑目标的节奏平滑变化从第 (t-1) 帧在线学习。因此，我们将 Vlt-1 表示为目标外观变化变换。 Wlt-1 旨在突出目标邻域区域的深层特征，减轻无关背景特征的干扰。因此，我们将 Wlt-1 表示为背景抑制变换。图 2 说明了方程式的流水线。 (2)。由于我们分别在静态连体网络的两个分支中添加了两个在线可更新组件，我们将我们的模型称为动态连体网络，即 DSiam。

3.2.快速转换学习

正则化线性回归。 我们使用正则化线性回归 (RLR) [24] 来计算 Vlt-1 和 Wlt-1。一般来说，给定两个张量 X 和 Y，我们的目标是找到一个最优线性变换矩阵 R，使 X 与 Y 相似 . 因此，我们有在这里插入图片描述
由于循环卷积’*'[24] 的理想特性，R 可以在频域中快速求解，
其中 F 是离散傅里叶变换 (DFT)； F-1 表示逆 DFT； ⋆ 表示复共轭。
目标外观变化V。在第（t-1）帧跟踪后，我们得到目标Ot-1。我们不是简单地用 Ot-1 替换目标模板 O1，而是学习从 O1 到 Ot-1 的外观变化，如图 3 所示。注意，我们假设目标变化在时间上是平滑的。所以，我们可以应用这种变化强制 fl(O1) 类似于 fl(Ot)，如方程式中所做的那样。 (2)。具体来说，我们得到目标外观变化变换 Vlt-1
在这里插入图片描述
其中 Fl1 = fl(O1)，Flt−1 = fl(Ot−1)； λv 控制正则化程度，可以通过联合训练从标记的视频序列中学习（如 3.5 节所述）。从方程(4)，我们可以通过以下方式有效地获得 Vlt-1

在这里插入图片描述
图 3 在线学习目标外观变化变换 Vlt-1 和背景抑制变换 Wlt-1 的两个输入。有关详细信息，请参阅文本。

背景抑制 W。在第 t 帧，我们只想选择一个与转换后的目标模板具有最高相似度的候选。因此，减轻来自背景的候选者的干扰将有助于进一步提高跟踪精度。为此，我们建议学习一种可以抑制背景区域深层特征的变换 Wlt-1。具体来说，在第 (t-1) 帧跟踪后，我们有了目标位置，可以将图像 It-1 裁剪到以目标位置为中心的区域 Gt-1，搜索区域 Zt-1 的大小相同。如图 3 所示，然后我们将 Gt-1 与高斯权重图相乘，得到 ¯Gt-1 以正确突出前景区域。我们需要学习 Wlt-1，它鼓励 Gt-1 的深层特征与¯Gt-1 相似，即
在这里插入图片描述
通过在线学习目标变化和背景抑制变换 V 和 W，我们的 DSiam 模型使静态连体网络 [2] 具有有价值的在线适应能力，从而获得更好的跟踪精度和可接受的实时速度。此外，除了以前使用手动设置参数的跟踪器之外，我们的模型参数 λv 和 λw 都可以通过联合训练来学习。

3.3. 逐元素多层融合

自然地，DSiam 模型，Eq。 (2)，可以进一步扩展到使用多层深度特征。与 HCF [21] 相比，我们采用更通用的元素融合策略。具体来说，我们可以使用方程式。 (2) 产生|L| 响应映射 {Slt|l ∈ L} 具有某些深度特征网络的多级特征。对于每层 l 的输出 Slt ∈ ℜms×ns，我们设置一个元素权重映射 Υl ∈ ℜms×ns 并强制 P l∈L Υl = 1ms×ns。 Υl 的离线学习在 3.5 节中详细阐述。然后，我们可以得到我们的最终响应图
在这里插入图片描述
其中⊙表示元素乘法。与等式。 (9)，与 HCF [21] 相比，我们有两个优势：1) 元素融合更有效，允许空间变体集成； 2）权重图可以离线学习，而不是人为设置。参见图 4 以获取两个真实离线学习融合权重图的示例。
在这里插入图片描述
图 4. 离线学习权重图 Υl1 和 Υl2 的真实示例，用于相关响应图 Sl1t 和 Sl2t，来自 AlexNet 的层 l1 和 l2 (l1 = 5, l2 = 4)。注意，较深层 l1 的响应图在搜索区域内的外围具有较高的权重，而在中心部分具有较低的权重。也就是说，当目标靠近搜索区域的中心时，较深的层特征有助于去除背景干扰，而较浅的层特征则有利于目标的精确定位；而如果目标位于搜索区域的外围，则只有更深层的特征才能有效确定目标位置。因此，这种离线训练的 elementwise 融合真正体现了来自不同层的响应图的互补作用，从而有助于获得更好的目标定位能力（见 4.3 节）。

3.4.网络架构

结合方程式。（2），（6）和（8），我们得到了使用单层深度特征的动态Siamese网络（DSiam），其网络架构如图5所示。DSiam网络可以进一步扩展到多层版本 DsiamM 在方程式中使用元素融合。 (9)。具体来说，fl(·) 表示一些适当的 CNN 模型的第 l 层的深层特征，如 VGG 和 AlexNet。然后我们引入两个新层，循环卷积（‘CirConv’）和正则化线性回归（‘RLR’），以制定 Vlt-1 和 Wlt-1 的快速转换和学习，等式。（6）和（8），成统一的网络表示。为了使 DSiam 和 DSiamM 架构可以直接在 la beled 视频序列而不是图像对上训练，我们进一步使用“裁剪”层来根据响应获得 Zt、Ot-1、Gt-1 和¯Gt-1映射 Slt-1。这使得训练损失可以有效地从最后一帧反向传播到第一帧。此外，“Elewise”层用于在 G 和高斯权重图之间执行元素乘法以生成 ¯G（参见图 3 为例）。通过这种架构，我们不仅可以训练深度特征网络 fl 的参数，还可以学习“RLR”的元素权重图和正则化参数 λv 和 λw。因此，DSiam 和 DSiamM 架构真正允许训练更好的在线可更新跟踪器，而不仅仅是找到一个好的匹配函数 [26, 2]。
在这里插入图片描述
图 5. 我们使用单层深度特征 f l(·) 的动态连体网络的网络架构。 “RLR”层表示学习方程中定义的 V 和 W 的过程。 (6) 和 (8)。 “CirConv”层表示方程式中的循环卷积“*”。 (2) 导致 ∼O = V * f l(O1) 和 ∼Fz = W * f l(Z)。 “Eltwise”层旨在将其输入与权重图相乘，并在第 3.3 节中使用。“裁剪”是根据响应图 S 中最大值的位置获取图像 I 中的区域。黑色块表示延迟操作，因此我们在这个图中省略了时间索引 t 和 t-1。

3.5. 联合训练

为了捕捉运动物体的丰富时空信息并离线学习所有参数，我们的 DSiam 网络可以在标记的视频序列而不是图像对上进行联合训练。2 为此，在前向过程中，给定一个视频序列 N 帧，{It|t = 1, …, N}，我们通过图 5 中定义的网络架构跟踪第一帧指示的目标。具体来说，我们可以获得 N 个响应图 {St|t = 1 , …, N} 表示每帧的跟踪结果。同时，我们有 N 个与 St 大小相同的地面实况图 {Jt|t = 1, …, N}，表示真实目标位置，并使用标签 1 表示目标，-1 表示背景。因此，我们可以将每一帧的逻辑损失函数定义为
在这里插入图片描述
这里|St| 是 St 的大小。整个视频的总损失为 L = P Nt=1 Lt。通过时间反向传播 (BPTT)，我们可以将损失传播到 DSiam 网络的所有参数，包括元素权重图，两个 RLR 层和正则化参数 λv 和 λw。与以前的跟踪器不同，DSiam 网络包含两个新层，“RLR”和“CirConv”。为了使我们的网络可以使用 BPTT 和随机梯度下降 (SGD) 进行训练，我们必须得到 Lt w.r.t 的梯度。这两个新层的所有参数。如图5所示，给定∇～OLt，我们应该通过左侧的‘CirConv’和‘RLR’层计算∇FLt、∇F1 Lt和∇λv Lt，以确保损失梯度可以有效地传播到fl。因此，我们首先将 ∇ ∼OLt 传播到 ∇VLt 并有
在这里插入图片描述

3.6. 实现细节和算法

与图像对的训练相比，视频序列的联合训练更加复杂和具有挑战性。因此，我们使用小型网络作为fl，并选择短视频作为训练数据。在实践中，我们采用由 SiamFC [2] 训练的 AlexNet 作为包含 5 个卷积层的 fl 的初始化。对于多层融合，我们提取“conv4”和“conv5”的深层特征来生成响应图，并通过方程得到最终的响应图。 (9)。我们还在实验中表明，我们的方法还有助于预训练的 VGG19 获得更好的跟踪性能。
数据集。 为了避免在同一数据源上进行训练和测试，我们使用 ILSVC-2015 来训练我们的 DSiam 网络并在其他基准上进行测试。由于 ILSVC-2015 有许多目标占据整帧，这在现实世界的跟踪任务中并不常见，我们首先根据目标的面积占用率选择 1130 个 ILSVC-2015 视频序列，从中随机生成 2000 个训练片段，每个其中包含 10 个连续的帧。
在这里插入图片描述
图 6. OTB-2013 上 OPE（一次通过评估）的成功率和精度图。图例中的数字分别表示成功图的曲线下面积 (AUC) 得分和精度图在 20 像素处的代表性精度。

初始化。 我们首先手动为 λv 和 λw 选择合理的值。然后我们通过离线联合训练更新所有这些。对于元素融合权重图，我们将“conv5”的权重图初始化为 1 的矩阵，将“conv4”的权重图初始化为 0 的矩阵。我们将学习率设置为 10-7 到 10-9，权重衰减 0.0005 和动量 0.9。我们的联合训练在 50 次迭代时终止，这通常会产生良好的性能。
跟踪算法。使用学习到的动态连体网络，我们将我们的跟踪算法总结如下：给定目标位置 I1，即边界框 b1 ∈ ℜ4，我们裁剪相应区域作为目标模板 O1，该区域略大于 b1并以b1为中心。然后我们从’conv5’和’conv4’层中提取O1的深层特征，得到F41和F51。在跟踪之前，我们通过将 Vl0 和 Wl0 的转换设置为空来关闭它们。在第 t 帧跟踪时，我们在三个尺度上裁剪搜索区域，即 {Zt,s|s ∈ 1,2,3} 以 bt-1 为中心。然后，我们通过方程得到 {Zt,s|s ∈ 1,2,3} 的 3 个响应图。 (2) 和 (9)。我们在融合的响应图中搜索最大值，得到其各自的位置和尺度，从而得到bt。当融合响应图的最大值大于0时，当前帧的跟踪成功。然后，我们根据 bt 裁剪 It 并得到 Ot，Gt，并通过将 Gt 与高斯权重图相乘得到¯Gt。我们提取 3 个区域的深层特征并通过方程计算 Vt4,5 和 Wt4,5。 (6) 和 (8)。我们使用 MatConvNet 工具箱 [27] 在 Matlab 中实现了所提出的方法。如果没有复杂的优化策略，我们的 DSiam 跟踪器可以在 NVIDIA TITAN X GPU 上以超过实时速度（平均 45fps）运行。

4. 实验结果

4.1. 设置

数据集和指标。 我们在两个流行的具有挑战性的数据集上评估我们的方法，在线跟踪基准 (OTB-2013) [30] 和视觉对象跟踪 2015 基准 (VOT-2015) [18]。 OTB-2013 包含 51 个真实世界序列，具有 11 个干扰属性，4 和两个指标，即边界框重叠率和中心位置误差。通过为每个指标设置成功阈值，我们可以获得精确度和成功图，它们可以定量地衡量不同跟踪器在 OTB-2013 [30] 上的性能。 VOT-2015 有 60 个序列，并在未命中目标时重新初始化测试跟踪器。考虑到边界框重叠率（准确性）和重新初始化时间（鲁棒性）的预期平均重叠是 VOT-2015 [18] 的主要评估指标。
在这里插入图片描述
图 7. OTB-2013 上 7 个实时跟踪器在成功图 AUC 方面的具体属性比较。我们的方法在所有 11 种贡品上都优于 SiamFC、Staple、MEEM、DSST 和 GOTURN。 HCF 在属性 BC、MB、DEF 和 LR 上表现优于我们；而 DsiamM 在其他 7 个属性上的表现优于 HCF，并且至少快两倍。平均而言，我们的跟踪器 DSiamM 在所有比较的实时竞争对手中实现了最高的准确度。

基线。在我们的实验中，我们选择了两组跟踪器进行彻底的比较。第一组由 6 个最新的实时跟踪器组成，其运行速度可以超过 10fps，包括 DSST [5]、MEEM [31]、HCF [21]、Staple [1]、GOTURN [15] 和 SiamFC [2]（即 SiamFC 3s [2]）。第二组由最新的跟踪器组成，它们产生最先进的精度，但不一定具有实时跟踪速度，包括 Deep SRDCF [7, 6]、MDNet [22]、SINT 和 SINT+ [ 26]。顺便说一句，MDNet 使用来自基准测试的序列来训练他们的模型，这对其他竞争对手来说可能并不完全公平。因此，我们使用与原始版本相同的参数和策略在 ILSVRC-2015 上重新训练 MDNet。我们将重新训练的 MDNet 表示为 R-MDNet。我们评估了我们方法的三个特定变体，DSiam、DSi amM 和 DSiamM Vgg19。 DSiam 和 DSiamM 使用第 3.6 节中介绍的特征网络作为 fl。具体来说，DSiam 仅使用层“conv5”； DSiamM 将“conv5”和“conv4”层的响应与离线学习的元素融合权重图融合； DSiamM Vgg19 使用预训练的 VGG19 网络 [25] 作为 fl，并采用来自“conv5-4”和“conv4-4”层的深度特征。

表 1. VOT-2015 数据集的比较结果。注意，下面的速度是在 VOT-2015 上生成的归一化速度。

在这里插入图片描述

4.2. 比较结果

OTB-2013 数据集。如图 6 所示，DSiamM 在成功图和精度图中均获得第二好的性能。尽管 MDNet 具有最高的准确度，但它的运行速度仅为 1fps，并且比 DSiamM 和 DSiam 慢得多。此外，DSiamM 和 DSiam 都优于其再训练版本，即 R-MDNet，分别有 6% 和 4% 的相对改进。 DSiam (DSiam) 在成功图的 AUC 上也优于其他两个在线更新的深度跟踪器 DeepSRDCF 和 HCF，相对改进分别为 2.3% (0.2%) 和 8.4% (6.1%)。 DSiamM 的性能优于最近基于 Siamese 网络的跟踪器 SINT+、SINT 和 SiamFC，尽管 SINT+ 使用光流作为额外的运动信息。虽然 DSiamM 和 DSiam 比 SiamFC 慢，但它们分别比 SiamFC 提高了 7.9% 和 5.6%，并且都具有实时速度。其他实时跟踪器，GOTURN、Staple、MEEM 和 DSST，更有可能以较低的准确性和鲁棒性跟踪目标，甚至可能在较长的序列中丢失目标。具体来说，DSiam（DSiam，DSi amM Vgg19）取得了46.8%（43.6%、36.9%）、9.3%（7%、2%）、14.7%（12.2%、7%）和18.4%（15.9 %, 10.5%) 分别高于 GOTURN、Staple、MEEM 和 DSST。这些结果清楚地验证了我们方法的卓越跟踪有效性和效率。
图 7 进一步在 OTB-2013 基准测试的 11 个特定属性上将我们的方法与六个最先进的实时跟踪器 SiamFC、Staple、GOTURN、HCF、MEEM 和 DSST 进行了比较。我们的跟踪器 DSiamM 在所有 11 个属性上都优于 SiamFC、Staple、MEEM、DSST 和 GOTURN。这表明我们的跟踪器能够在各种条件下高速执行稳健的跟踪。虽然 DSi amM 在背景杂乱（BC）、运动模糊（MB）、变形（DEF）和低分辨率（LR）的属性上比 HCF 差，但在整个数据集上，DSiamM 比 HCF 好得多，至少是两倍快点。此外，DSiamM Vgg19 的良好性能也验证了我们模型利用任意深度特征的通用性。
在这里插入图片描述
图 8. VOT-2015 数据集上的预期平均重叠 (EAO) 排名。为清楚起见，我们在此图中仅显示了 15 个跟踪器。

图 9. 左子图显示了 DSiamM 的三个变体的比较。 DSiamM-VT、DSiamM-BS和DSiamM-Multi分别表示从DSiamM中去除了目标外观变化变换、背景抑制变换和逐元素多层融合分量的跟踪器。右子图比较了 DSiamM 与另外两个变体，DSiamM withFrame(t-1) 只是将目标模板 O1 更新为 Ot-1，DSiamM fixedFusionWeight 使用固定的融合权重来融合多层跟踪响应图。
VOT-2015 数据集。我们在图 8 和表 1 中展示了 VOT-2015 数据集的比较结果。在表 1 中，我们将我们的跟踪器与八个最先进的竞争对手进行了比较。虽然 DSiamM 的重叠分数低于 MDNet 和 DeepSRDCF，但在归一化速度方面它的运行速度比它们快得多。此外，DSiamM 在纠正 MDNet 不公平的训练优势方面比 R-MDNet 做得更好。虽然 GOTURN、Staple 和 SiamFC 速度更快，但我们的 DSiamM 跟踪器比它们获得更高的精度，并且还可以实时运行。这些结果表明，DSiamM 能够在可靠的精度和实时速度。图 8 显示了 VOT-2015 挑战中所有比较跟踪器的 EAO 排名。提出的 DSiamM 和 DSiam 分别以 45fps 和 25fps 的跟踪速度在平均重叠方面排名前 3 位和前 4 位。此外，我们还可以看到，DSiamM 获得明显优于 DSiam 的平均重叠，因为通过逐元素多层融合，DSiamM 可以收集有关移动目标的更多有用信息。

4.3.讨论

特定算法组件的贡献。提出的DSiamM跟踪器具有三个重要组件，目标外观变化变换（‘VT’），背景抑制变换（‘BS’）和元素多层融合（‘Multi’）。我们通过删除每一个并检查 OTB-2013 上退化跟踪器的性能来评估它们在 DSiamM 中的具体贡献。如图 9 的左子图所示，如果我们从 DSi amM 中删除任何组件，跟踪精度会降低。因此，DSiamM 的所有三个组成部分都做出了积极贡献。具体来说，第一个组件“VT”贡献最大。第三个组件“Multi”也通过使用多层深度特征发挥重要作用。
在线适应策略。代替提出的目标外观变化变换学习，一种简单的策略是简单地通过 Ot-1 更新目标模板 O1。如图 9 的右侧子图所示，这种简单的策略不能导致最佳性能，因为更容易受到不可避免的跟踪错误的影响，这些错误可能会破坏 Ot-1 的深层特征。相反，我们总是使用ground truth目标模板O1，通过正则化线性回归学习时间变化变换，可以部分纠正跟踪误差的影响。此外，我们不存储消除累积误差风险的学习变化变换。
在这里插入图片描述
图 10. 8 个典型视频序列的跟踪结果，使用我们的跟踪器和 6 个实时跟踪器。第 4 行显示两个失败案例。

元素融合与固定融合权重。另一种融合解决方案是通过通用优化 [10] 或详尽测试，人为地为多层响应图选择一些适当的组合权重。然后，响应图中的所有位置都具有相同的权重。我们将我们的元素多层融合与这种更简单的融合策略进行比较。如图 9 的右子图所示，元素融合确实获得了更好的跟踪性能。
故障案例分析。我们在图 10 的第 4 行展示了两个典型的 DSiamM 失败案例。DSiamM 在这两个案例中失败主要是因为环境照明发生了显着变化，我们的在线目标变化或背景抑制变换学习无法处理如此大的突然的变化令人满意。考虑更有效的功能，例如 HOG 用于普通图像或 SPHORB [35] 用于球形图像，可能有助于在一定程度上缓解这个问题。

5.结论

本文提出了动态孪生网络（DSiam）用于视觉对象跟踪，旨在提供可靠的在线适应能力，同时保持实时跟踪速度。与现有竞争对手相比，我们的方法具有三大优势。首先，源于最先进的 Siamese 网络 [2]，我们的 DSiam 模型具备可靠的对前景和背景时间变化的在线适应能力，同时不损害实时响应能力，从而导致出色的平衡跟踪真实数据集的性能。其次，我们的 DSiam 模型可以处理多层次的深度特征，其输出可以通过特定的元素融合层自适应地集成。第三，与大多数基于匹配的跟踪器的核心匹配模型基本上都是在图像对上训练不同，我们的 DSiam 网络可以作为一个整体模型联合训练，直接在标记的视频序列上，因此可以更令人满意地捕获丰富的时空信息的移动物体。顺便说一句，由于提议的联合训练，我们模型的所有参数都可以通过反向传播离线学习。
未来，我们计划探索在线回归更详细的运动物体参数的可能性，例如它的规模、主要方向、纵横比，甚至是紧密的轮廓，使用提出的动态连体网络，并通过超像素表示进一步加速该过程 [20, 33]。我们也有兴趣通过与经典随机场模型 [8, 9] 适当集成，通过动态连体网络研究在线视频对象分割。