《Spatially and Temporally Efficient Non-local Attention Netw......》翻译文献--学习网络

本文提出了一种非局部视频注意力网络(NVAN)和时空高效的NVAN(STE-NVAN),用于行人再识别任务。NVAN通过在不同特征层级上融合非局部注意力操作,提取视频的时空信息。而STE-NVAN通过利用行人视频的时空冗余,降低计算复杂度,同时保持高识别精度。实验表明,这两种方法在行人再识别的性能和计算效率上都优于现有方法。
摘要由CSDN通过智能技术生成

Abstract

基于视频的人再识别(reid)旨在匹配行人在非重叠相机上的视频序列。如何将视频的时空信息嵌入到特征表示中,是一项很有挑战性的实际工作。现有的方法大多是通过汇聚图像特征设计神经网络的注意力机制来学习视频特征,而只在高层特征上研究帧之间的相关性。在这项工作中,我们的目标是细化具有非局部注意操作的中间特征和高级特征,并做出了两个贡献

  • (i)我们建议建立一个非本地视频注意力网络(NVAN),将视频特征纳入多个特征级别的表示。
  • (ii)我们进一步引入一个时空高效的非局部视频注意网络(STE-NVAN),通过探索行人视频中呈现的时空冗余来降低计算复杂度
    大量的实验表明,我们的NVAN在火星数据集的一级精度上比目前的水平高出3.8%,并证实了我们的STE-NVAN与现有方法相比,显示出了更优越的计算能力。

1. Introduction

人员重新识别(reid)解决了在非重叠相机中检索行人图像/视频的问题。以前的方法主要集中于基于图像的reid,其中每个行人拥有多个图像用于检索[4,9,11,18,22,24,34,42]。最近,基于视频的reid在文献中引起了极大的关注,因为提取行人视频在真实的监控应用中更加真实和关键[12,26,32,35]。随着大规模基于视频的reid数据集的出现[26,35],研究人员设计了深度神经网络来学习视频的鲁棒表示[1,8,17,23,26,45]。
为了执行基于视频的reid,典型的方法需要学习一个映射函数来将视频序列投射到一个低维特征空间,然后通过比较样本之

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值