《Spatially and Temporally Efficient Non-local Attention Netw......》翻译文献--学习网络

最新推荐文章于 2024-06-26 09:53:18 发布

听我的错不了

最新推荐文章于 2024-06-26 09:53:18 发布

阅读量986

点赞数

分类专栏：学习日常文献翻译目标跟踪

本文链接：https://blog.csdn.net/weixin_45032769/article/details/102826244

版权

本文提出了一种非局部视频注意力网络(NVAN)和时空高效的NVAN(STE-NVAN)，用于行人再识别任务。NVAN通过在不同特征层级上融合非局部注意力操作，提取视频的时空信息。而STE-NVAN通过利用行人视频的时空冗余，降低计算复杂度，同时保持高识别精度。实验表明，这两种方法在行人再识别的性能和计算效率上都优于现有方法。

摘要由CSDN通过智能技术生成

Abstract

基于视频的人再识别(reid)旨在匹配行人在非重叠相机上的视频序列。如何将视频的时空信息嵌入到特征表示中，是一项很有挑战性的实际工作。现有的方法大多是通过汇聚图像特征和设计神经网络的注意力机制来学习视频特征，而只在高层特征上研究帧之间的相关性。在这项工作中，我们的目标是细化具有非局部注意操作的中间特征和高级特征，并做出了两个贡献。

(i)我们建议建立一个非本地视频注意力网络(NVAN)，将视频特征纳入多个特征级别的表示。
(ii)我们进一步引入一个时空高效的非局部视频注意网络(STE-NVAN)，通过探索行人视频中呈现的时空冗余来降低计算复杂度
大量的实验表明，我们的NVAN在火星数据集的一级精度上比目前的水平高出3.8%，并证实了我们的STE-NVAN与现有方法相比，显示出了更优越的计算能力。

1. Introduction

人员重新识别(reid)解决了在非重叠相机中检索行人图像/视频的问题。以前的方法主要集中于基于图像的reid，其中每个行人拥有多个图像用于检索[4,9,11,18,22,24,34,42]。最近，基于视频的reid在文献中引起了极大的关注，因为提取行人视频在真实的监控应用中更加真实和关键[12,26,32,35]。随着大规模基于视频的reid数据集的出现[26,35]，研究人员设计了深度神经网络来学习视频的鲁棒表示[1,8,17,23,26,45]。
为了执行基于视频的reid，典型的方法需要学习一个映射函数来将视频序列投射到一个低维特征空间，然后通过比较样本之

最低0.47元/天解锁文章

听我的错不了

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Spatially and Temporally Efficient Non-local Attention Netw......》翻译文献--学习网络

Abstract基于视频的人再识别(reid)旨在匹配行人在非重叠相机上的视频序列。如何将视频的时空信息嵌入到特征表示中，是一项很有挑战性的实际工作。现有的方法大多是通过汇聚图像特征和设计神经网络的注意力机制来学习视频特征，而只在高层特征上研究帧之间的相关性。在这项工作中，我们的目标是细化具有非局部注意操作的中间特征和高级特征，并做出了两个贡献。(i)我们建议建立一个非本地视频注意力网络(N...
复制链接

扫一扫

专栏目录