行人重识别阅读笔记之Multi-Granularity Reference-Aided Attentive Feature Aggregation

最新推荐文章于 2023-12-31 01:48:54 发布

花椒蛋糕

最新推荐文章于 2023-12-31 01:48:54 发布

阅读量629

点赞数

分类专栏：行人重识别ReID论文笔记文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_51138870/article/details/110877649

版权

行人重识别ReID论文笔记专栏收录该内容

7 篇文章 2 订阅

订阅专栏

行人重识别阅读笔记之Multi-Granularity Reference-Aided Attentive Feature Aggregation

摘要
介绍
模型

论文地址：https://arxiv.org/pdf/2003.12224.pdf

摘要

帧间存在冗余、新显示的外观、遮挡和运动模糊。

提出多粒度参考辅助注意力特征聚合Multi-Granularity Reference-Aided Attentive Feature Aggregation(MG-RAFA)，来精细地将时空特征聚合成具有区别性的视频级特征表示，从全局的角度使用卷积操作来学习注意力。

将其关系，即代表全局视频信息的参考特征节点(S-RFNs)的成对关联，与特征本身进行叠加，以推断注意力。此外，为了充分利用不同层次的语义，提出基于在不同粒度捕获的关系来学习多粒度注意力。在这里插入图片描述

介绍

如上图所示，对于一个视频片段，不同帧的可见内容不同，但也存在重叠/冗余。一般来说，视频片段/序列的多帧可以为识别提供更全面的行人信息，但也有挑战，如处理大量冗余、遮挡、运动模糊的存在。为了使视频级特征的表达更加精确、全面和有区别，必须从全局的角度抓住信息特征，同时排除干扰。

注意力的目的在于强化重要特征，抑制不相关特征。传统注意力研究，集合了时空注意力或专注递归神经网络来聚合空间和时间特征。分别或顺序地学习空间和时间维度的注意力权重。然而，由于缺乏全局视角，很难准确判断某个位置的某个特征是否重要，以及整个视频片段的冗余过程。有方法采用多样性正则化来弥补这个问题，但只能在一定程度上缓解这个问题。需要一个强大的模型从全局的角度共同确定每个时空特征的重要程度。

如上图所示，行人可以在不同粒度(不同大小区域)捕获判别因子/语义。目前缺乏有效的机制来探究这种等级特征。

在本文中，提出了一种多粒度参考辅助注意力特征聚合(MG-RAFA)用于基于视频的person ReID。为了有效地聚合空间和时间位置的特征，从全局的角度确定每个特征位置/节点的重要性，并在此过程中考虑语义层次。对于每个特征位置，利用其与所有参考特征节点之间的关系/亲和力，这些参考特征节点代表全局结构信息(类聚类模式)，以及特征本身(外观信息)来建模和推断用于聚合的注意力权重。

考虑到视频的特点，构建了一个较小但有代表性的参考特征节点集(S-RFNs)，而不是使用所有的原始特征节点，用于全局建模的两两关系。S-RFNS为全局关系的建模提供了一种简化而有代表性的参考，不仅减轻了注意力学习的困难，而且降低了计算复杂度。此外，还考虑到语义的粒度是不同的，如上图所示，提出一种基于层次结构的模型关系来进行注意力特征的聚合，使得注意学习在计算复杂度较低的情况下更加精确和自适应。

主要贡献：
1、针对基于视频的person ReID，提出一个简单而有效的多粒度参考辅助注意力集合(MG-RAFA)模块，用于空间和时间的注意力特征联合聚合。

2、为了更好地捕捉不同粒度上的区分语义，利用多个粒度上的关系来推断注意力点进行特征聚合。

3、提出通过压缩视频数据的冗余信息，建立一个小而有代表性的参考集，以便更有效地建立关系模型。

模型

Multi-Granularity Reference-aided Attentive Feature Aggregation：
一个有效的注意力模块，即多粒度参考辅助全局注意力(MG-RAFA)，用于时空特征的聚合，从而得到一个视频级的特征向量。

概述

目标是设计一个专注的特征聚合模块，该模块能够全面捕获具有区别性的信息，并排除视频中通常包含冗余、新显示内容、遮挡和模糊的干扰。为实现这一目标，从全局的角度对时空特征的共同关注对鲁棒性能很重要。

通过一组参考特征节点之间的全局关系来学习每个时空位置/节点的注意力。特别是对于目标节点的全局关系建模，不使用所有的特征节点，而是构建一个小的代表性特征节点作为参考，以减少优化难度和计算复杂度。此外，鉴别信息可能在不同语义级别上物理地传播。因此，引入层次(多粒度)关系建模来捕获不同粒度的语义。在这里插入图片描述
上图展示了总体框架。对于一个tracklet，将T帧采样为V={I1,I2,……,IT}。通过单帧特征提取器，得到一组feature map Fall={Ft|t=1,2,……,T}，其中Ft∈Rhxwxc，包含HxW个特征节点。基于提出的多粒度参考辅助注意力，将集合中的所有特征节点加权求和为特征向量v，作为最终的视频级特征表示，通过l2距离进行匹配。

Reference-aided Attentive Feature Aggregation

提取到的特征集Fall={Ft|t=1,2,……,T}由K=HxWxt个特征节点组成，每个特征节点都是一个c维特征向量。为了确定一个特征节点的重要程度，准备了它的关系/亲和力，每个节点作为成分来推断注意力。对于任意节点I，将其与所有节点关系叠加时，关系元素的数量为D=HxWxt。

考虑到存在的外观变化和帧间的大量冗余，关系向量的分布空间较大，可能导致挖掘模式以准确确定注意力的困难。因此，选择一小组具有代表性的特征节点，而不是全部节点作为建模关系的参考，以缓解建模的困难。使用沿时间帧的平均池化来缓解帧间冗余，将Fall={Ft|t=1,2,……,T}融合到feature map FR∈RHxWxC中，包含D=HxW个特征节点。

对于Fall中的特征节点xi∈RC，计算它与参考集FR中所有的feature node之间的关系/亲和力来建模它的对应关系。将嵌入空间中的两个节点的相关性表示为两两关系：
在这里插入图片描述
其中yj∈RC表示参考集FR中的一个特征节点，i、j标识节点索引。定义µ(xi) = ReLU(Wµxi) 和 ν(yj r) = ReLU(Wνyj)，其中Wµ∈R(C/s)xC和Wν∈R(C/s)xC为学习权重矩阵，其中s为控制降维率的正积分。采用1x1卷积滤波器，分别进行批处理归一化和ReLU激活。将特征节点xi与参考集FR中所有节点的成对关系叠加，得到关系向量为，
在这里插入图片描述
紧凑地反映了全局类聚类结构信息。由于关系相对于参考节点堆叠成一个扫描顺序固定的向量，因此空间几何信息也包含在关系向量中。

描述与所有参考节点的关联/关系的关系向量提供了有价值的结构信息。原始特征xi表示局部外观信息，而关系特征则表示全局关系。它们相互补充和加强，但在不同的语义空间。因此，将它们在各自的嵌入空间中组合在一起，通过建模函数来推断特征节点xi的重要程度(注意力分数)：
在这里插入图片描述
其中φ(•) 和 ψ(•)是两种嵌入函数，[•,•]表示连接操作。θ(•)表示建模函数，用于推断xi所对应的注意力向量ai∈RC。定义φ(xi) = ReLU(Wφxi), ψ(ri) = ReLU(Wψri), 以及
θ([φ(xi), ψ(ri)]) = ReLU(Wθ([φ(xi), ψ(ri)])。通过1x1卷积滤波，然后执行BN和ReLU来实现。对于Fall中的每个特征节点xi，得到一个注意力分数向量ai。对于Fall中的所有节点，有A=[a1,a2,……,aK]。

通过正则化注意力分数通过softmax函数在不同的时空位置，获得最终的注意力ai，i=1,2,……,K。然后，使用最终的注意力作为权重聚合Fall中的所有特征节点。在数学上，得到最终的序列级特征表示v∈RC：在这里插入图片描述
使用element-wise乘法。

Multi-Granularity Attention

基于多粒度参考辅助注意力特征聚合的注意力特征集合方法，引入一种层次结构设计，旨在捕获不同语义层次上的可区分的时空信息。通过建模关系来区分不同的粒度，并对不同分辨率的特征图加以重视。

对于FR中的参考节点和Fall中要聚合的节点，将它们按照通道维度分成N个分块/组。每个组对应一个粒度。通过这种方法，与单一粒度的情况相比，降低了计算复杂度。对于第m个粒度，对FR和Ft的第m个分割特征进行空间平均池化，t=1,2,……,T，得到因子化的参考特征FR,m∈RHmxWmxcn，其中Hm、Wm、cn皆为H、W、c按比例截取的大小。同理，得到框架t上的因子化特征映射Ft,m∈RHmxWmxcn，时空特征节点集Fall,m={Ft,m|t=1,2,……,T}。
然后，分别对每一组使用上述的参考辅助注意力特征聚合。可以拓展为多粒度版本：在这里插入图片描述
其中下标m表示粒度索引，xim表示Fall,m中的第i个节点，yjm表示参考特征图FR,m中的第j个节点。与上述单一粒度下的特征聚合相似，通过softmax函数对注意力分数进行归一化，并对不同时空位置的特征节点进行加权求和。最后，将每一个分割/分组(vm)的融合特征连接起来，得到最终的序列级特征表示v=[v1,v2,……,vN]。

Loss Design

增加retrieval-based loss，即硬采样三重态损失triplet，LTr，和ID/分类损失(标签平滑交叉熵损失)，在视频特征向量v上用LID表示。每个分类器由一个BN层和一个FC层组成。为了鼓励网络在每个粒度上聚合判别特征，在每个粒度vg的聚合特征上增加两个损失，g=1,……,N。在这里插入图片描述