论文阅读:AAAI2022 PFD_Net :Pose-guided Feature Disentangling for Occluded Person Re-identification Based

57 篇文章 1 订阅
32 篇文章 4 订阅

Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer
Tao Wang 北京大学机器感知深圳研究生院
论文:https://arxiv.org/abs/2112.02466
源码:https://github.com/WangTaoAs/PFD_Net
Abstract:
被遮挡的人的重新识别是一项具有挑战性的任务,因为在某些场景中,人体的各个部位可能会被某些障碍物(如树木、汽车和行人)所遮挡。现有的一些姿态引导方法通过根据图匹配对齐身体部位来解决这一问题,但这些基于图的方法并不直观和复杂。因此,我们提出了一种基于transform的姿态引导特征分离(PFD)方法,利用姿态信息清晰地解开语义成分(如人体或关节部分),并选择性地匹配非遮挡部分。首先,利用视觉变压器(ViT)的强大功能提取其的patch特征。其次,在姿态引导的特征聚合(PFA)模块中,利用匹配和分配机制,从patch信息中初步分离出姿态信息。第三,在transform译码器中引入了一组可学习的语义视图,隐式地增强了分离体部分的特征。然而,如果没有额外的监督,这些语义观点并不能保证与身体相关。因此,提出了姿态视图匹配(PVM)模块来显式地匹配可见的身体部位,并自动分离遮挡特征。第四,为了更好地防止遮挡的干扰,我们设计了一种姿态引导的Push损失来强调可见身体部位的特征。在五个具有挑战性的数据集上对两个任务(遮挡和整体Re-ID)的广泛实验表明,我们提出的PFD是优越的前景,它的表现优于最先进的方法。代码可以在https://github.com/WangTaoAs/PFD网络上找到。
1 Introduction
行人重新识别(Re-ID)的目的是通过多个不重叠的摄像头来识别一个特定的人(郑、杨和Hauptmann2016)。它是计算机视觉领域的一个重要学科,具有广泛的应用背景,如视频监控、活动分析、安全和智能城市等。近年来,整体reid取得了很大的进步,多种方法(Sun等。2018年;石、刘、刘,2020年;张、张、刘,2021年)已被提出。然而,在真实的场景中,如车站、机场、购物中心,人们很容易被一些障碍物(如树木、汽车、行人)遮挡,很难让不完整和看不见的身体部位的人去匹配。因此,被遮挡的行人再识别任务(Zhuo等。2018年;Miao等人。2019年;Jia等人。a)具有重要的实际意义。
与整体行人Re-ID相比,被遮挡人Re-ID任务存在两个主要挑战:(1)由于被遮挡的存在,引入了各种噪声导致不匹配。(2)遮挡可能具有与人体部位相似的特征,导致特征学习失败。一些早期的方法(Miaoal等。2019年)利用姿态信息在空间特征图上显示非被遮挡的身体部位,并直接将全局特征划分为部分特征。这些方法都很直观,但需要严格的空间特征对齐。一些最近的姿态引导方法(Gao等。2020年;Wang等人。使用基于图的方法来建模拓扑信息。通过学习节点到节点或边到边的对应关系,来进一步挖掘可见的部分。然而,这些方法仍然面临着挑战(2)中提到的问题。因此,在本文中,为了解决上述问题,我们探索了不需要空间对齐而与transform相结合的可能性。如图1所示,我们提出了PFD,一个姿态引导的特征解纠缠transform网络,利用姿态信息清晰地解开语义成分(如人体或关节部分),并强迫遮挡特征和非遮挡特征之间的相似性尽可能不一致,这可以增强有区别性的特征学习同时减少背景噪声解决挑战(1)的问题,并有效地缓解挑战(2)中提到的特征学习的失败。
在这里插入图片描述
图1:occluded person Re-ID.中的姿势引导特征解纠缠(PFD)方法的说明。PFD通过使用transform隐式地分离交互特征,并显式地使用姿态信息来指导非被遮挡特征和被遮挡特征的分离,来表示被遮挡的人图像。
具体来说,所提出的PFD包括一个视觉上下文transform编码器、一个姿态估计器、一个姿态引导的特征聚合(PFA)模块、一个部分视图基于transform译码器和一个姿态视图匹配(PVM)模块。在视觉上下文transform编码器中,我们采用了一个基于transform的图像分类模型(即,Vitt等。)和相机视角信息,以捕获健壮的全局上下文信息。PFA旨在将姿态信息嵌入到全局上下文特征和部分特征中。从PFA中得到的特征可以初步显示可见的身体部位。在基于部分视图的transform译码器中,引入了一套可学习的语义视图来隐式增强分离的主体部分特征。每个部分视图特征对应于遮挡图像的鉴别部分。然而,如果没有额外的监督,我们只能隐式地学习特征,而不能限制可学习的语义视图来捕捉人体的准确部分。因此,我们提出了一个姿态视图匹配(PVM)模块,该模块隐式地学习识别特征并显式地匹配可见的身体部位,从而将人体特征与遮挡特征分离,减少了挑战(1)中提到的噪声干扰。此外,为了避免挑战(2)中提到的特征学习失败,我们设计了一种姿态引导的Push损失,以减少人体特征和遮挡特征之间的相似性。
本文的主要贡献可总结如下:
1.我们提出了一种新的姿态引导特征解纠缠transform,用于occluded person Re-ID,利用姿态信息清晰地解开语义成分(如人体或关节部分),并选择性地匹配非被遮挡部分。
2.我们设计了一种姿态引导的push损失,以帮助关注人体部位,减轻遮挡和噪声的干扰,避免了特征学习的失败。
3.为了证明我们的方法的有效性,我们在封闭的,整体的Re-ID数据集上进行了实验。大量的实验结果表明,该方法优于SOTA方法。
2 Related Work
2.1 Occluded Person Re-Identifification

由于身体信息不完整,Occluded行人Re-ID比整体Re-ID更具挑战性。现有的方法基本上可以分为三类,基于手工分割的方法、使用附加线索的方法和基于transform的方法。
基于手工分割的方法通过测量对齐斑块的相似性关系来解决遮挡问题。Sun等人。(Sun等人。提出了一个名为基于部分的卷积基线(PCB)的网络,该网络对特征图进行统一划分,并直接学习局部特征。Sun等人。(Sun等人。提出了一种基于区域的方法VPM,该方法通过自我监督来感知可见区域。贾i林等人。(Jia等人。2021b)提出MoS,利用对应部分集之间的Jaccard相似系数将被遮挡人Re-ID作为一个集合匹配问题。
一些方法利用外部线索来定位人体部位,如分割、姿态估计或身体解析。Song等人。(Song等人。提出了一种mask引导的对比注意模型,分别学习来自身体的特征。苗等人。(苗等。引入姿态引导特征对齐(PGFA),利用姿态信息来挖掘识别部分。高等人。(Gao等人。提出了一种姿态引导的可见部分匹配(PVPM)模型,以学习具有姿态引导注意的识别部分特征。王等人。(Wang等人。提出了HOReID,引入了高阶关系和人拓扑信息来学习鲁棒特征。
近年来,基于transform的应用方法不断出现,该transform具有两大特点。首先,transform已被证明具有强大的特征提取能力。he等人。(he等人。研究了一个名为transReID的纯transform框架,该框架结合了相机视角信息,在人Re-ID和车辆Re-ID上都取得了良好的性能。其次,transform具有学习解纠缠特征的能力。李彦等人。(Li等人。2021)是第一个提出部分感知变压器(PAT)的人,这可以解开强大的人类部分发现。
与上述方法不同的是,我们的方法结合了姿态信息和transform结构,清晰地分离出更有区别的特征,有效地缓解了遮挡导致的特征学习失败。
2.2 Visual Transformer
transform(Vaswani等。在自然语言处理领域取得了巨大的成就。受自我注意机制的启发,许多研究人员在计算机视觉中应用了transform。例如,维特(dosovitskiy等。将图像作为序列直接处理,并在图像识别中取得了最先进的性能。DETR(Carion等人。在对象查询和特征图之间进行交叉注意,将检测问题转换为一对一的匹配问题,从而消除了目标检测中对手工制作的组件的需要。
3 Proposed Method
在本节中,我们将详细介绍所提出的姿态引导特征解纠缠(PFD)transform。图2显示了对我们的方法的概述。
在这里插入图片描述
图2:建议的PFD由四个部分组成。第一部分是视觉上下文编码器,它将摄像机信息编码到嵌入中,以捕获全局上下文信息。第二部分是姿势引导的特征聚合(PFA),它利用匹配和分布机制来初步指示可见的身体部位。第三部分是基于部分视图的解码器,在Nv可学习语义视图的指导下,将姿态引导的特征分解为判别视图集。第四部分是姿态视图匹配模块(PVM),它将所得到的视图集和姿态引导特征集作为集合匹配问题。此外,还提出了姿势引导push损失来强调可见身体部位的特征。详情请参考建议的方法。
3.1 Visual Context Transformer Encoder
我们构建了基于基于transform的图像分类模型的编码器(i.e.ViT(多索维茨基等人。2020)).给定一个人的图像x∈RH×W×C,其中H、W、C分别表示高度、宽度和通道尺寸。我们首先使用滑动窗口将x分割为N个固定大小的补丁{xip|i=1,2,…,N}。步长可以表示为S,每个图像块的大小可以表示为P,补丁数N可以描述为:
在这里插入图片描述
其中,【】是地板的功能。当S等于斑块大小P时,分割后的斑块不重叠。当S小于P时,生成的斑块发生重叠,可以缓解图像的内部空间邻域信息的损失。transform码器只需要序列作为输入,因此对展平的块补丁执行可训练的线性投影函数f(·),将补丁映射到D维,最终得到补丁嵌入E∈RN×D,(即Ei=f(xi),i=1,2,…,N)。补丁嵌入前有一个可学习的标记xclass,输出标记作为编码器全局特征表示fgb。为了保留位置信息,我们采用了可学习的位置编码。然而,这些特征非常容易受到相机变化的影响,所以我们在(He等。学习相机透视信息。然后,最终的输入序列可以被描述为:
在这里插入图片描述
其中PE是位置嵌入,Cid∈R(N+1)×D是摄像机嵌入,对于相同的图像cid是相同的。λcm是一个超参数来平衡摄像机嵌入的权重。接下来,输入嵌入的Einput将由m个transform层进行处理。编码器的最终输出端∈R(N+1)×D可分为两部分(编码器全局特征和部分特征):fgb∈R1×D和fpart∈RN×D.为了了解人体部位更多的鉴别特征,将part特征按顺序分成K组,每组的大小为(N//K)× D. 然后,每个分块将与编码器全局特征fgb∈R1×D链接,每一组输入到共享transform层,学习K组部分局部特征fgp=[f1gp,f2gp,…,fKgp]。
Encoder Supervision Loss. 对于编码器的全局特征和组特征,我们采用交叉熵损失作为身份损失和三元组损失。编码器loss函数可表示为:
在这里插入图片描述
其中,P(·)表示概率预测函数。
3.2 Pose-guided Feature Aggregation
被遮挡的人图像的身体信息较少,非身体部位信息可能不明确,导致性能下降。因此,我们使用一个人体姿态估计器来从图像中提取关键点信息。
Pose Estimation.
给定一个人的图像x,估计器从输入图像中提取M个地标。然后利用地标生成热图H=[h1,h2,…,hM]。每个热图降采样至(H/4)×(W/4)。每个热图的最大响应点对应于一个关节点。我们设置了一个阈值γ来过滤掉高置信地标和低置信度地标。但不像(Miaoetal。2019年),我们不将地标小于γ的热图设置为0。相反,每个热图将被分配一个标签li∈{0,1},i=1,…,M。在形式上,热图标签可以说明为:
在这里插入图片描述
其中,ci表示第i个地标的置信度得分。
Pose-guided Feature Aggregation. 为了整合姿态信息,我们设置了K=M,它完全等于关键点的数量。然后,将一个全连通层应用于热图H,得到其维数与部分局部特征fgp相同的热图H’。接下来,利用热图H‘点乘fgp元素,获得姿态引导特征P=[P1,P2,…,PM]。虽然P已经明确地编码了人体不同部位的信息,但我们希望能从fgp中找到对某个身体部位贡献最大的信息部分。因此,我们建立了一种匹配和分布机制,它将部分局部特征和姿态引导特征视为一个集合相似度度量问题。最后,我们可以得到姿态引导的特征聚合集S={Si|i=1,2,…,M}。对于每个Pi,我们可以在fgp中找到最相似的特征,然后添加两个特征形成Si。在形式上,
在这里插入图片描述
在这里插入图片描述
其中,i=1,2,…,K 《,》表示内积,fkgp表示fgp中与Pi最相似的一个。
3.3 Part View Based Transformer Decoder
在本节中,我们定义了一组可学习的语义部分视图来学习有区别的身体部分。可学习的语义部分视图可以表示为Z={Zi|i=1,2,…,Nv},而Z∈RNv×D将作为查询添加到每个交叉注意层中。如图2所示,keys和values来自于姿态热图H和编码器fen的输出的组合。将平均池化层应用于热图H,然后乘以fen,最后输出fde∈R(N+1)×D。在形式上,查询、键和值可以表述为:
在这里插入图片描述
其中,将i=1、2、…,Nv、j=1、2、…,D、线性投影Wq∈RD×dk、Wk∈RD×dk和Wv∈RD×dv分别应用于语义部分视图和特征fde。接下来,我们可以通过实现多头注意机制和两个全连接层来获得Nv部分视图集v={vi|i=1,2,…,Nv},这与(Vaswani等人相同。2017).
Pose-View Matching Module.
在交叉注意机制中,Nv部分语义视图可以学习到一些判别特征。然而,我们不知道已经学习了哪一部分或什么类型的信息。因此,为了获得与人体骨架相关的特征,我们提出了一个姿态-视图匹配模块。由于姿态引导特征集合集S的每个特征都与人体的某个关键点信息相关,因此我们可以通过计算零件视图vi与Si之间的相似性,找到与人体的某个关键点相关的零件视图vi。添加匹配的语义部分视图vi和假设引导的特征聚合特征Si,生成最终的视图特征集Fv={fiv|i=1,2,…,Nv}。在形式上,
在这里插入图片描述
由于地标的置信度得分可以指示特征的哪一部分包含人体信息,因此热图标签li可以指导我们将视图特征集Fv分为两部分。在视图集合特征的热图标签li=1的特征形成一个高置信的关键点视图特征集合置Fh={fih|i=1,2,…,L},其余形成低置信关键点视图特征集合Fl={fli|i=1,2,…,Nv−L},其中L表示在Fv中特征热图标签等于1的数量。
Decoder Supervision Loss. WHAT IS THAT?
为了关注更多的非遮挡的身体特征,我们提出了一种姿势引导的推损失:
在这里插入图片描述
在这里插入图片描述
其中,B表示训练批处理的大小。这种损失的动机是显而易见的。人体部位和非人体部位不应该有很强的相似性。如果Fh和Fl相似,那么Lp将会很大,并且可学习的语义部分视图将会自适应地调整自己。为了指导解码器视图特征表示学习,平均池化层应用于高置信关键点视图特征集Fh获得姿态引导解码器全局特征fph,然后使用身份损失和三重损失指导姿态引导解码器全局特征fph和高置信特征fh学习在公式 13.
在这里插入图片描述
3.4 Training and Inference
在训练阶段,姿态估计使用预先训练的模型,其余的组件(如编码器、解码器等)与整体目标损失一起训练,表示为Eq。 14.
在这里插入图片描述
其中,λen和λde分别为编码器损耗和解码器损耗的比例因子,两者均设为0.5。
在测试阶段,我们将编码器全局特征fgb、姿态引导解码器全局特征fph、分组局部部分特征fgp和高置信度关键点特征Fh作为表示F,忽略了低置信度关键点特征Fl。然而,高置信度关键点特征Fh具有可变长度,网络具有不同的实现。因此,我们通过填充零来将它的长度固定为Nv。
在这里插入图片描述
4 Experiments
4.1 Datasets and Evaluation Metrics
为了说明我们的方法的有效性,我们在5个Re-ID数据集上评估了我们的方法的两个任务,包括遮挡人Re-ID和整体人Re-ID。
Occluded-Duke (由15618张训练图像、2210张封闭查询图像和17661张图库图像组成。它是DukeMTMC-reID的子集(郑、郑、Yang2017)的子集,将其遮挡图像并去除一些重叠的图像。Occluded-REID ((Zhuo等。该手机包含了200名被遮挡者的2000张图像。每个身份有5张全身人图像和5张不同类型严重遮挡的遮挡人图像。
Market-1501 (郑等。2015年)包含从6个摄像机视点观察到的1501个身份,12936个训练751个身份,19732个画廊图片和2228个查询。
DukeMTMC-reID (包含从8个相机视点捕获的1,404个身份的36,411张图像。它包含16522张训练图像,17661张图库图像和2228个查询。
MSMT17(Wei等。2018年)包含15.41个相机视角拍摄的4101个身份的125441张图像。它包含了32,621张训练图像。在推理过程中,随机选取82161张图像作为图库,其余11659张图像作为查询。
评估指标。我们采用累积匹配特征(CMC)曲线和平均平均精度(mAP)来评价不同的Re-ID模型的质量
4.2 Implementation Details
训练和测试图像的大小都被调整到256×128。训练图像采用随机水平翻转、填充、随机裁剪和随机擦除(Zhong等。2020).编码器的初始权重在ImageNet-21K上进行预训练,然后在ImageNet-1K上进行微调。在本文中,分裂组的数量K和估计的人类地标的数量均设为17。解码器层数在占用公量上设置为2,在其他数据集上设置为6。隐藏的维度D被设置为768。transform解码器结构与(Vaswani等人相同。2017).批处理大小设置为64,每个ID有4张图像。学习率初始化为0.008,余弦学习率衰减。为了从图像中检测地标,我们采用HRNet(Sun等。对COCO数据集进行了预训练。阈值γ被设置为0.2。
4.3 Comparison with the State-of-the-Art
我们比较了我们的方法与最先进的方法在五个基准上,包括闭塞的人ReID和整体的人ReID。
Results on Occluded-Duke and Occluded-REID.
表1显示了在两个被遮挡的数据集上的结果。如表所示,我们比较了三种方法:基于(1)手工制作的分裂方法,包括部分对齐(Zhao等。和PCB(Sun等人。2018).(2)闭塞的ReID方法,包括双线性部分(Suh等。2018年),PDGAN(Ge等人。2018年),广告闭塞(Huang等。2018年),FPR(He等人。,PGFA(Miao等。,PVPM(Gao等人。2020年),GASM(He和Liu,2020年),HOReID(Wang等人。(Zhu等人。和MoS(Jia等人。2021b).基于(3)变压器的闭塞ReID方法,包括PAT(Li等。和TransReID(He等人。2021).从表中可以看出,我们提出的PFD方法在闭塞-杜克和闭塞-reid数据集上分别达到了67.7%/79.8%Rank-1精度和60.1%/81.3%mAP,在闭塞-杜克中优于所有方法。进一步的PFD∗实现了更高的排名-1和mAP的一小步滑动窗口设置。与PGFA、PVPM和HOReID等SOTA方法相比,我们的方法在阻塞-杜克数据集上至少超过了+12.6%的秩-1准确率和+16.3%的mAP准确率。与基于竞争变压器的PAT方法相比,我们的方法超过了至少+3.2%的排名-1精度,至少+6.5%的映射,至少+9.2%的映射。
在这里插入图片描述
表1:与最先进的方法的性能比较。“*”意味着编码器具有一个小步骤的滑动窗口设置。
PFD性能优越的原因可以归因于以下几点。首先,与CNN相比,该变压器具有更好的特征表示能力,并能更好地注意鉴别特征。其次,该方法获得的解纠缠特征可以表示杂乱场景中的身体部位信息,从而在匹配时得到清晰的语义指导,比空间对齐更有效。第三,所提出的姿态引导推损失有效地削弱了遮挡和背景杂波的干扰。
Results on Holistic ReID datasets.
为了验证我们的模型在整体ReID任务上的有效性,我们在三个整体ReID数据集上进行了实验,包括Market-1501、DukeMTMC-reID和MSMT17。表2显示了Market-1501和DukeMTMC-reID数据集的结果。在比较中有四种类型的方法:基于(1)部分特征的方法,包括PCB(Sun等。,DSR(He等人。,机器人(Luo等。和VPM(Sun等人。2019c).基于(2)全局特征的方法,包括MVPM(Sun等。2019年a),SFT(Luo等人。2019年a),CAMA(Yang等人。2019年),IANet(Hou等人。2019年)和Circle(Sun等人。2020).基于(3)额外线索的方法,包括SPReID(Kalayeh等。2018年),P2Net(Guo等人。,PGFA(Miao等。2019年),AANet(Tay,Roy,和Yap,2019年)和HOReID(Wang等人。2020).基于(4)变压器的方法,包括TransReID(He等。和PAT(Li等人。2021).从表中,我们可以看到,我们提出的方法取得了竞争的结果。具体来说,我们的方法在Market-1501和DukeMTMC-reID数据集上实现了SOTA性能(分别为95.5%/90.6%Rank-1精度和89.5%/82.2%mAP)。与基于变压器的PAT方法相比,我们的方法在+1501和+1.8%/+4%排名1.在DukeMTMC上的累积率/mAP。我们还在MSMT17数据集上对该方法进行了实验。比较了几种方法,包括MVPM(Sun等。2019年a),SFT(Luo等人。2019年a),OSNet(Zhou等人。2019年),IANet(Hou等人。2019年),总网(Zheng等。2019年),CBN(Zhuang等。2020年),Cirecle(Sun等人。2020年),RGA-SC(Zhang等。和SAN(Jin等人。2020).从表3可以看出,提出的PFD具有竞争力的性能。具体来说,我们的方法在MSMT17上达到了82.7%的Rank-1精度和65.1%的mAP。可以看出,虽然我们的方法不是为整体网格任务设计的,但它仍然可以实现竞争的结果,这重新改变了我们提出的方法的鲁棒性。
在这里插入图片描述
表2:与market-1501和DukeMTMC-reID数据集上最先进模型的性能比较。
在这里插入图片描述
表3:与MSMT17上最先进的模型的性能比较。
4.4 Ablation Study
在这部分中,我们对occluded杜克数据集进行消融研究,以分析每个成分的有效性。
Effectiveness of proposed Modules.
实验结果见表4。索引1表示纯transform的编解码器架构。我们可以看到,性能可以达到58.2%的rsnk-1精度和48.3%的mAP,甚至比姿态引导的SOTA方法HOReID显示出更好的性能。这是因为自注意机制可以比CNN关注更有区别的特征。从索引-2开始,当添加姿态引导的特征聚合时,+5.5%的rank-1精度和+7.9%的mAP都大大提高了性能。这说明姿态信息的引入和正确的聚合可以提高良好的性能。从索引-3中我们可以看出,我们提出的PVM也是有效的。通过比较指数-3和指数-5,我们发现PFA和PVM的组合可以提高+8.8%的排名-1精度和+11.2%的mAP,这表明姿态信息和正确匹配是非常重要的。从索引5和索引6可以看出,我们的整体模型可以达到最佳的性能,这表明了姿态引导的推损失的有效性。
Analysis of the number of Semantic views.
语义视图的数量Nv决定了视图特征的粒度。如表5所示,我们提出的PFD的性能对Nv具有鲁棒性。随着Nv的增加,性能在Nv达到17之前不断提高,这完全等于关键点的数量。因此,我们得出结论,17个语义视图可能能够捕获相应的17个关键点特征。
在这里插入图片描述
Analysis of the number of Transformer Layers.
我们进行了定量实验,以找到最合适的解码器层数。如图3(a)所示,当删除解码器时,模型的性能大大降低。可以看出,我们观察到,当解码器层数设置为2时,可以获得最好的性能。而随着层数的增加,每个层数几乎没有改善性能.这是因为数据集中图像的分辨率较小,而且内容相对简单。
在这里插入图片描述
The Impact of the Threshold γ.
阈值γ在Eq4中被定义,以指示高置信度的标志,这可以帮助PVM明确地匹配可见的身体部位。我们通过将阈值γ从0改为0.7来进行消融研究。从图3(b)中,当γ设置为0.2时,我们可以得到最好的性能。当γ值过小时,PVM可以将所有地标视为人体区域,从而引入噪声。相反地,当γ太大时,某个身体区域的信息可能会丢失。值得注意的是,当伽马设置为0时,引入了大量的噪声,但我们的方法仍然可以达到65.5%的rank-1精度,这在occludedduke上仍然是SOTA的性能。这表明,我们的方法对姿态噪声具有鲁棒性,并进一步说明了为什么它可以在整体数据集上取得良好的结果。
在这里插入图片描述
表6:不同姿态估计下PFD的性能。
The Impact of Pose Estimation.
我们采用了三种不同的姿态估计算法,HRNet(Sun等。2019年b),字母表序列(Fang等人。和OpenPose(Caoal等人。2017年)在PFD中。从表6中可以看出,结果表明,PFD仍然可以通过使用不太可靠的地标估计器来实现最先进的性能。此外,我们通过将σ从0.1改变到20,将高斯噪声N(µ,σ)添加到估计的热图中。从图4中,我们发现该模型具有良好的鲁棒性当σ小于10时的噪声。
在这里插入图片描述
4.5 Visualization
我们将不同可学习语义视图的解码器交叉注意可视化,并将它们融合在一起,形成注意热图。如图5所示,融合的可学习语义视图几乎可以准确地定位人体的通畅部分,这证明了我们所提出的方法的有效性。
在这里插入图片描述
5 Conclusion
在本文中,我们提出了一种基于transform的姿态引导特征分离纠缠(PFD)方法,用于遮挡ReID任务,利用姿态信息清晰地解开语义成分。PFD包含一个基于transform的编解码器架构,两个匹配模块(PFA和PVM),以及一个姿态引导的push损耗。基于ViT的编码器具有较强的能力,可以提取补丁功能。然后,PFA模块通过匹配估计的姿态热图和斑块特征,初步显示可见的身体部位。在解码器中,我们定义了一组可学习的语义视图来学习区分体部分,然后提出了PVM模块,通过匹配视图集和姿态引导特征聚合集之间最相似的特征来增强编码器的特征。此外,PVM能够在姿态估计的指导下自动分离遮挡特征。最后,提出了一种姿态引导push损失方法,通过推动嵌入空间中可见部分与遮挡部分之间的距离,更好地消除遮挡噪声的干扰。
最后,我们在occluded-duke、occluded-reID、market-1501、duke-MEMID和MSMT17 5个流行的数据集上进行了实验,有竞争性的结果证明了该方法的有效性。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zqx951102

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值