Siamese Keypoint Prediction Network for Visual Object Tracking---论文翻译

SiamKPN是针对视觉对象跟踪提出的一种新方法,它采用级联热图策略进行粗到细的预测建模,以解决现有暹罗跟踪器对干扰项的抵抗力不足的问题。该网络使用改进的ResNet-50作为暹罗主干,并结合关键点预测头,通过级联监督逐步聚焦目标,减少背景干扰。SiamKPN在多个基准数据集上表现出色,且能以实时速度运行。
摘要由CSDN通过智能技术生成

paper : http://xxx.itp.ac.cn/pdf/2006.04078v1
code : https://github.com/ZekuiQin/SiamKPN

Abstract

视觉对象跟踪旨在根据给定的初始边界框来估计视频序列中任意目标的位置。通过利用离线特征学习,暹罗范式最近已成为高性能跟踪的领先框架。但是,当前现有的暹罗跟踪器要么严重依赖于基于锚的复杂检测网络,要么缺乏抵抗干扰者的能力。在本文中,我们提出了暹罗关键点预测网络(SiamKPN)来应对这些挑战。在使用Siamese主干进行特征嵌入时,SiamKPN受益于用于粗略到精细预测建模的级联热图策略。尤其是,该策略是通过沿= 3wcascade顺序缩小标签热图的覆盖范围以应用宽松到严格的中间监督来实施的。在推断过程中,我们发现预测的连续阶段热图将逐渐集中到目标,并减少到干扰因素。 SiamKPN在以实时速度运行的同时,在四个基准数据集(包括OTB-100,VOT2018,LaSOT和GOT-10k)上的视觉对象跟踪方面,与最新的跟踪器相比,表现出色。

1 Introduction

视觉对象跟踪是预测视频序列中任意目标位置的任务,前提是仅在第一帧中目标的边界框即可。像图像分类,目标检测和语义分割等其他计算机视觉任务一样,由于变形,视点,比例,遮挡,照明等导致的外观变化,目标跟踪也非常具有挑战性。
此外,在考虑背景杂波和类似干扰因素时,任务甚至更难解决。在文献中,视觉对象跟踪的经典方法是判别相关滤波器[5,18]。但是,在深度学习时代,这种方法很难利用端到端的深度特征学习来获得更好的性能。
为了解决这个问题,已经采用并发展了暹罗学习范式[6],以从离线深度特征学习中收获[45,2]。该范例学习了针对目标区域和搜索图像的共享特征嵌入网络,从而将视觉对象跟踪公式化为相似性学习问题。第一种实现是SINT [45],它通过采样补丁对来训练暹罗网络。尽管SINT可以有效地提高跟踪精度,但由于冗余且效率低下基于补丁的特征提取,因此SINT不能实时实现。作为一个简单的修改,SiamFC [2]利用全卷积运算学习暹罗网络,并通过两个特征图之间的有效互相关来解决匹配问题。沿着这方面的研究,CFNet [46]将相关滤波器作为可区分的层并入了暹罗框架。 RASNet [50]采用注意力机制来提高互相关响应的质量。在这些方法中,预测建模部分限于简单的体系结构,这在一定程度上导致性能受限。
在这里插入图片描述
图1. SiamRPN ++ [26],

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值