Self-Supervised Deep Correlation Tracking

本文提出了一种自监督深度相关跟踪算法self-SDCT,解决了深度特征提取网络训练需要大量标注样本的问题。通过前后向一致性生成伪标签,使用多周期一致性损失进行网络训练,同时结合低相似度丢弃策略和循环轨迹一致性损失,提高了特征提取网络的鲁棒性和跟踪性能。实验结果显示,self-SDCT在多个标准基准上展现出与有监督和无监督跟踪器相当的跟踪效果。
摘要由CSDN通过智能技术生成

Abstract

特征提取网络的训练通常需要大量的人工标注的训练样本,这使得训练过程是一个耗时且昂贵的过程。因此,本文提出了一种基于深度相关框架的有效自监督学习跟踪器(self-SDCT)。基于鲁棒跟踪器的前后向跟踪一致性,本文提出了一种多周期一致性损失作为自监督信息,用于从相邻视频帧中学习特征提取网络。在训练阶段,我们在Siamese相关跟踪框架下,通过前后预测生成连续视频帧的伪标签,并利用提出的多周期一致性损失学习特征提取网络。此外,本文还提出了一种相似性丢弃策略,可以丢弃一些低质量的训练样本对,并在每个样本对中采用循环轨迹一致性损失,来改进训练丢失函数。在跟踪阶段,我们利用预先训练好的特征提取网络来提取特征,并利用Siamese相关跟踪框架来定位目标。大量的实验结果表明,与现有的有监督和无监督跟踪方法相比,本文提出的自监督深度相关跟踪器(self-SDCT)在标准评估基准上具有很好的跟踪性能。

Introduction

单目标跟踪是一个非常热门和重要的课题,在视频监控、自动驾驶、人机交互等领域有着广泛的应用。跟踪的核心任务是在第一帧提供选定目标的真实信息,并利用跟踪器来准确预测所有连续视频帧中的目标位置。近年来,基于人工标注图像的深度卷积神经网络(CNN)被广泛应用于跟踪领域。然而,在基于深度学习的跟踪框架中,由于标记训练数据的数量有限,训练有效的特征提取网络仍然是一个难题。

基于深层CNN结构的跟踪方法近年来取得了显著的效果,在跟踪领域得到了越来越广泛的应用[1]-[5]。通常,这些基于深度CNN的跟踪器利用预先训练好的网络进行特征提取,然后使用相关或相似性函数计算模板样本和候选样本的相似性得分,然后选择得分最大的候选样本作为当前图像帧中的目标[1]、[2],[6]–[8] 。与基于手工特征的跟踪器相比,这些方法提高了性能,但不更新的在线跟踪限制了泛化能力。虽然已有多个跟踪器尝试采用深度网络进行特征表达,但当目标在训练过程中未知时,需要通过执行随机梯度下降(SGD)来在线调整网络的权值,这对跟踪速度有很大影响[9]-[11]。在[12]中,Bertineto等人提出了一种SiamFC跟踪器,该跟踪器着重于在离线阶段学习目标和候选目标的相似函数,与同期的其他跟踪器相比,取得了显著的跟踪性能。ECO[4]跟踪器在判别相关滤波模型中引入了因子化卷积算子,并提出了一种生成模型来增强样本多样性,提高了跟踪精度和速度。

然而,这些基于CNN的深度跟踪器有两个主要缺点。一是特征提取网络需要大量的人工标注样本进行训练。这些人工标注的训练样本非常有限,获取它们也非常耗时和昂贵,这意味着基于有限标注样本的训练特征提取网络无法很好地表示目标特征。第二个问题是基于深度卷积网络的跟踪器需要一个多层网络来提取特征,并在在线跟踪阶段对预先训练好的网络进行微调,这导致了很高的计算复杂度。由于特征提取网络的高维性[7]、[9]、[13],一些基于深度CNN的跟踪器无法实现实时跟踪速度。例如,MDNet[9]跟踪器需要为相似性匹配任务预先训练一个深度CNN架构。在跟踪阶段,MDNet跟踪器使用SGD策略学习从当前序列中提取候选的检测器。该方法计算量大,无法获得实时跟踪速度。如图1所示,计算开销会阻止具有深层特征的跟踪器实现实时性能(例如,SINT[2]、MCPF[14]和CREST[15])。

图1:在OTB-100数据集上比较了我们自己的SDCT跟踪器和其他基于深度学习的跟踪器的跟踪速度和AUC分数。

为了解决上述两个问题,本文提出了一种鲁棒高效的深度相关跟踪算法,该算法包括两个关键部分基于自监督学习的预训练深度特征提取网络和一个高效的深度相关跟踪框架。与大多数有监督和无监督的深度跟踪器不同,我们的自监督self-SDCT跟踪器获得了具有竞争力的跟踪性能(见图1)。尽管标记训练样本的数量有限,但是有大量的未标记视频序列可用于自监督学习。针对这一现象,我们提出通过自监督学习来训练特征提取网络,这样只需要在初始帧中对目标进行标记。在给出初始目标的真实值后,采用相关滤波的方法对其他样本进行伪标记,并采用循环一致性损失的方法进行网络训练。大多数训练网络方法的循环一致性损失只是通过前后预测来计算初始状态和最终状态之间的差异。与这些方法不同的是,我们在网络训练中使用了多周期一致性损失,它同时考虑了最终结果(图4:最终损失)和中间结果(图4:中间损失)。多周期一致性可以提高特征提取网络的鲁棒性。此外,为了缓解低质量训练样本对的影响,我们提出了一种低相似度的退出策略来退出这些训练样本对。另外,通过目标循环轨迹的一致性,可以更好地区分目标和背景,减少背景信息对特征提取网络的影响。低相似度丢失策略和循环轨迹一致性丢失策略都能有效地改进特征提取网络。一旦网络训练完成,我们将其应用到一个有效的Siamese相关跟踪框架中来跟踪目标,平均跟踪速度约为48fps。与其他有监督跟踪方法(如CFNet[16]和SiamFC[12])和无监督跟踪方法(如UDT[17])相比,我们的self-SDCT跟踪器可以获得有竞争力的跟踪结果(见图2)。

图2:关于所提出的self-SDCT跟踪器和其他有监督和无监督跟踪器的跟踪示例。

本文的主要贡献如下:

  • 我们提出了一种基于多周期一致性损失的自监督学习方法来对深度特征提取网络进行预训练,它可以利用大量的未标记视频样本而不是有限的人工标注样本。
  • 采用多周期一致性损失、低相似性损失和周期轨迹一致性损失等方法对特征提取网络进行联合预训练,这样可以有效提高网络的表示能力,并降低过度拟合的风险。
  • 我们进行了广泛的实验评估,以证明我们的self-SDCT跟踪器与最先进的有监督和无监督跟踪器在大型基准上的竞争力:OTB-2013[18]、OTB-100[19]、UA VDT[20]、TColor-128[21]和UA V-123[22]。

Related Works

在这一节中,我们介绍了关于深度相关跟踪算法、特征表示算法的自监督学习以及时间序列的周期一致性的相关文献。

A. Deep Correlation Tracking

基于深度相关结构的跟踪器越来越受到关注。 基于Siamese 体系结构的跟踪方法将跟踪任务表述为互相关问题[2],[12],[16],[23] – [26]。 SINT [2]跟踪器建议通过寻找候选样本与初始目标之间的最大相似度来训练确定目标位置的暹罗网络。 SiamFC [12]跟踪器结合了用于跟踪任务的全卷积网络,从而证明了离线训练特征提取网络的强大表示能力。 当前,基于暹罗网络的跟踪器[27] – [30]通过添加区域提议网络(RPN)模块来提高其跟踪精度。 在[27]中,为了获得高精度和实时跟踪性能,Li等人。 提出了一种SiamRPN跟踪器,该跟踪器可以摒弃多尺度测试和在线微调。 但是,SiamRPN跟踪器容易受到跟踪场景中相似物体的干扰,这会降低跟踪性能。 Fan等人 [30]提供了一种基于暹罗网络的级联RPN跟踪器(SiamCRPN)。 SiamCRPN跟踪器通过调整后的锚帧逐渐定义每个RPN中目标的位置,从而使目标定位更加准确。 此外,基于相关滤波器的跟踪方法训练线性模板来区分图像块及其平移。 受益于傅立叶域中的公式,基于CF的跟踪器可以实现快速跟踪速度[31]–[33]。 因此,为了提高基于CF的跟踪器的跟踪性能,已从不同方面进行了研究,例如比例估计[34],时空上下文[35],[36],学习模型[37],非 线性核[38]和边界效应[39]-[41]。 受此启发,与此同时,一些基于深度学习的跟踪方法尝试将相关滤波器视为其网络结构中的附加层,以实现更快的跟踪速度。 CFNet [16]跟踪器将相关性过滤器集成到基于Siamese网络的跟踪框架中,并提

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

石语H

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值