CREST: Convolutional Residual Learning for Visual Tracking ---- 文献翻译理解

本文链接：https://blog.csdn.net/weixin_45032769/article/details/103651342

本文介绍了CREST算法，一种将鉴别相关滤波器(DFCs)重构为卷积神经网络层的视觉跟踪方法。通过卷积残差学习，该方法能够捕捉外观变化，缓解模型退化，提高跟踪准确性。在多个基准数据集上的实验显示，CREST在性能上优于现有的先进跟踪器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

鉴别相关滤波器(DCFs)在视觉跟踪中表现出良好的性能。他们只需要从初始帧中提取一小组训练样本来生成外观模型。然而，现有的DCFs分别从特征提取中学习滤波器，并使用经验加权的移动平均操作更新这些滤波器。DCF跟踪器很难从端到端的培训中受益。本文提出了将DCFs重构为单层卷积神经网络的算法。该方法将特征提取、响应图生成和模型更新集成到神经网络中进行端到端训练 为了减少在线更新过程中模型的退化，我们利用残差学习来考虑外观变化。在基准数据集上的大量实验表明，我们的波峰跟踪器性能优于最先进的跟踪器。

1. Introduction

视觉跟踪有多种应用，从视频监控、人机交互到自动驾驶。主要的困难是如何利用极其有限的训练数据(通常是第一帧中的一个边界框)来开发一个外观模型，以应对各种挑战，包括背景杂波、尺度变化、运动模糊和部分遮挡。鉴别相关滤波器(Discriminative correlation filters, DCFs)由于其以下两个重要特性，越来越受到跟踪界的关注[4,8,30]。首先，由于空间相关性通常是在傅里叶域中以元素乘积的形式计算的，所以DCFs适合于快速跟踪。其次，DCFs将输入特性的循环移位版本转换为软标签，即，由从0到1的高斯函数生成。与现有的在采样点上生成稀疏响应分数的跟踪检测方法[22,1,14,34]相比，DCFs总是在所有搜索点上生成稠密的响应分数。利用深度卷积特性[25]，基于DCFs的跟踪算法[30,8,11]在最近的跟踪基准数据集上取得了最先进的性能[45,46,24]。
在这里插入图片描述图1:卷积特征改善了DCFs (DeepSRDCF [8]， CCOT [11]， HCFT[30])。我们提出了CREST算法，将DCFs表示为带有残差学习的浅卷积层。与现有的具有卷积特性的DCFs相比，它的性能更好
然而，现有的基于DCFs的跟踪算法受到两个方面的限制。首先，学习DCFs与特征提取无关。虽然像[30,8,11]中那样通过深度卷积特性直接学习DCFs很简单，但是DCFs跟踪器从端到端的培训中获益甚微。其次，大多数DCFs跟踪器使用线性插值操作随时间更新所学习的过滤器。这种经验插值权值不太可能在模型自适应性和稳定性之间取得良好的平衡。由于有噪声的更新，它会导致DCFs跟踪器漂移。这些局限性提出了两个问题:(1)具有特征表示的DCFs是否可以端到端建模;(2)相对于使用线性插值等经验操作，DCFs是否可以更有效地更新?
针对这两个问题，我们提出了一种卷积残差学习算法(CREST)。我们将DCFs解释为深度神经网络中卷积滤波器的对偶。基于这一思想，我们将DCFs重新定义为单层卷积神经网络，直接生成响应图作为连续两帧之间的空间相关性。利用该公式，通过预先训练好的CNN模型(如VGGNet[38])提取特征