走进VOT--《End-to-end representation learning for Correlation Filter based tracking》 阅读笔记 CFnet-master

论文题目:End-to-end representation learning for Correlation Filter based tracking
论文出处:CVPR 2017
论文作者:Jack Valmadre,Luca Bertinetto等人
论文主页:http://www.robots.ox.ac.uk/~luca/cfnet.html
源码链接:https://github.com/bertinetto/cfnet

模型的提出在这里插入图片描述

提出的网络架构概述,CFNet。它是一个非对称的Siamese网络:在对两个输入图像应用相同的卷积特征变换后,利用“训练图像”学习一个线性模板,然后利用该模板通过cross——correlation搜索“测试图像”。

摘要:

相关滤波器是一种训练线性模板来区分图像及其平移的算法。它非常适合于目标跟踪,因为它在傅里叶域中的公式提供了一个快速的解决方案(fft2),使探测器能够每帧预先重新训练一次。然而,以前使用相关过滤器的工作采用的特性都是针对不同任务进行的trained或者手工designed。本文首次将具有闭形式解的相关滤波器学习器解释为深度神经网络中的different layer,从而克服了这一局限性。这使得学习与相关过滤器紧密耦合的深层特性成为可能。实验表明 ,我们的方法具有重要的实用价值,允许轻量级架构在高帧率下实现最先进的性能。

1 引言

在计算机视觉应用中,深度神经网络是学习图像表达的有力工具。然而,在线深层网络,然而,在线训练深度网络,以便从一个或几个例子中捕获以前不可见的对象类,是具有挑战性的。这个问题在视觉对象跟踪等应用程序中很自然地出现,其目标是在视频中重新检测一个对象,并在序列开始时只检测一个边框。主要的挑战是缺乏目标对象的先验知识,目标对象可以是任何类。
最简单的方法是不考虑先验知识的缺乏,采用一个预测深度卷积神经网络(CNN)对目标进行训练,例如使用载随机梯度下降(SGD)[31, 25, 35],这样一个深度神经网络的优化器。有限的训练数据和大量的参数使得这成为一个困难的学习问题。此外,SGD对于在线适应非常复杂。 对这些缺点的一个可能的答案是没有网络适应在线运行。
最近的工作集中在学习可以用作通用对象描述符的深度嵌入器(deep embeddings)[3,12,28,17,5]。这些方法使用Siamese CNN,离线训练来辨别两个图像块是否包含相同的对象。其理念是,强大的嵌入器将允许通过相似性检测(从而跟踪)对象,从而绕过在线学习问题。然而,使用固定的度量来比较外观会阻止学习算法利用任何可能有助于识别的视频特定线索。(所以这里解决了度量问题应该)
另一种策略是使用在线学习方法,如相关过滤器(CF)</

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值