论文阅读:CVPR2020旷视High-Order Information Matters: Learning Relation and Topology for Occluded Person Re

High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification

高阶信息问题:行人重识别的学习关系与拓扑
传送门:https://mp.weixin.qq.com/s/EhAeaA68Ek27EptkTfZiBQ
论文地址:https://arxiv.org/abs/2003.08177
在这里插入图片描述
Abstract
被遮挡的人重新识别(ReID)的目的是通过非关节摄像机将被遮挡的人图像与整体图像进行匹配。在本文中,我们提出了一个新的框架,通过学习高阶关系和拓扑信息的识别特征和鲁棒对齐。首先,我们使用一个CNN主干网和一个关键点估计模型来提取语义局部特征。即便如此,被遮挡的图像仍然存在被遮挡和异常值。然后,我们将图像的局部特征视为图的节点,并提出了一个自适应方向图卷积(ADGC)层来传递节点之间的关系信息。该ADGC层可以通过动态学习方向和链接程度,自动抑制无意义特征的消息传递。当对齐两幅图像的两组局部特征时,我们将其视为一个图匹配问题,并提出了一个交叉图嵌入对齐(CGEA)层来联合学习并将拓扑信息嵌入到局部特征中,并直接预测相似性得分。所提出的CGEA层不仅充分利用了通过图匹配学习到的对齐,而且用稳健的软匹配取代了敏感的一对一匹配。最后,对封闭、部分和整体ReID任务的广泛实验表明了我们提出的方法的有效性。具体来说,我们的框架在OccludedDuke数据集上显著优于SOTA的mAP分数6.5%。代码可在https://github.com/wangguanan/HOReID.
1. Introduction
行人重识别(ReID)[6,43]的目标是匹配脱离摄像机的人的图像,这是广泛的用于视频监控、安全和智能城市。近年来,人们提出了各种用于人ReID的方法[25,39,18,44,16,19,43,11,35]。然而,大多数图像关注整体图像,而忽略了遮挡图像,这可能更实用和具有挑战性。如图1(a)所示,人们很容易被一些障碍物遮挡(如行李、柜台、拥挤的公众、汽车、树木),或走出摄像机视角,导致图像被遮挡。因此,有必要将有遮挡观察的人进行匹配,这被称为有遮挡的人Re-ID问题[48,26]。
与匹配具有整体图像的人相比,遮挡的ReID更具挑战性,有以下原因[45,48]:(1)具有遮挡的区域,图像包含的鉴别信息较少,更有可能匹配错误的人。(2)通过部分对部分的匹配,基于部分的特征已被证明是有效的[35]。但它们需要事先进行严格的人员对齐,因此在严重遮挡的情况下不能很好地工作。近年来,许多遮挡/部分人ReID方法[48,49,26,10,8,34,23]被提出,其中大多数只考虑一阶信息进行特征学习和对齐。例如,预定义的区域[35]、姿态[26]或人类解析[10]被用于特征学习和对齐。我们认为,除了一阶信息外,还应该导入高阶信息,对遮挡ReID效果更好。
在这里插入图片描述

图1。高阶关系和拓扑信息的说明。(a)在遮挡的REID中,关键点会出现遮挡(12)和异常值(3)。(b) Vanilla method依赖于所有三个阶段的一阶关键点信息,这是不鲁棒的。©我们的方法通过图来学习特征来建模关系信息,并通过学习节点到节点和边到边的对应,将对齐视为图匹配问题来建模拓扑信息。
在图1(a)中,我们可以看到关键点信息存在遮挡(圈1和2)和异常值(3)。例如,关键点1和关键点2被遮挡,导致毫无意义的特征。关键点3是异常值,会导致错位。一个常用的解决方案如图1(b)所示。它提取了关键点区域的局部特征,假设所有的关键点都是准确的,局部特征对齐良好。在这个解决方案中,所有三个阶段都依赖于一阶关键点信息,这不是很健壮。在本文中,如图1©所示,我们提出了一个新的鉴别特征和鲁棒对齐框架。在特征学习阶段,我们将图像的局部特征视为图的节点来学习关系信息。通过在图中传递消息,这些遮挡关键点而引起的无意义特征,可以通过相邻的有意义特征来改善。在对齐阶段,我们使用图匹配算法[40]来学习鲁棒对齐。除了与节点到节点的对应对齐外,它还额外建模了的边对边的对应。然后,我们通过构建一个交叉图像图,将对齐信息嵌入到特征中,其中图像的节点消息可以传递给其他图像的节点。因此,离群值关键点的特征可以通过其在其他图像上的相应特征来修复。最后,我们使用一个网络来学习受验证损失监督的相似性,而不是计算预先定义的距离的相似性。
具体来说,我们提出了一个新的框架联合建模高阶关系和人拓扑信息的遮挡行人重识别。如图2所示,我们的框架包括三个模块,即一阶语义模块(S)、高阶关系模块®和高阶人拓扑模块(T)。(1)在S中,我们利用CNN主干网来学习特征图,并利用人类关键点估计模型来学习关键点。然后我们可以提取相应关键点的语义特征。(2)在R中,我们将学习到的图像语义特征视为图的节点,并提出了一个自适应方向图卷积(ADGC)层来学习和传递边缘特征的信息。ADGC层可以自动决定每条边的方向和程度。从而可以促进语义特征的信息传递,抑制无意义特征和噪声特征的信息传递。最后,学习节点包含语义和相关信息。(3)在T中,我们提出了一个交叉图嵌入对齐(CGEA)层。它以两个图作为输入,使用图匹配策略学习两个图之间的节点的对应关系,并通过将学习到的对应关系视为邻接矩阵来传递消息。这样,就可以增强相关特征,并可以将对齐信息嵌入到特征中。最后,为了避免困难的一对一对齐,我们通过将两个图映射到一个logit并监督验证损失来预测它们的相似性。
本文的主要贡献总结如下:(1)提出了一种新的高阶关系和人拓扑信息联合建模框架,以很好地学习遮挡ReID和稳健的对齐特征。据我们所知,这是第一个将这种高阶信息引入遮挡ReID的工作。(2)提出了一种自适应有向图卷积(ADGC)层来动态学习图的有向链接,可以促进语义区域的消息传递,抑制遮挡或异常值等无意义区域的有向链接传递。通过它,我们可以更好地对遮挡ReID的关系信息进行建模。(3)提出了一种与验证损失相结合的交叉图嵌入式对齐(CGEA)层来学习特征对齐和预测相似性评分。它们可以避免敏感的硬一对一匹配,并执行一个强大的软匹配。(4)在遮挡、部分和整体ReID数据集上的广泛实验结果表明,所提出的模型优于最先进的方法。特别是在遮挡的duke数据集上,我们的方法在rank-1和mAP分数方面的性能至少显著优于3.7%和6.5%。
2.Related Works
Person Re-Identification.
行人重识别解决了通过不相交的摄像机[6]匹配行人图像的问题。关键的挑战在于由不同的视角、姿势、光照和遮挡引起的类内大的和小的类间差异。现有的方法可以分为手工制作的描述符[25,39,18]、度量学习方法[44,16,19]和深度学习算法[43,11,35,36,37,22]。所有这些ReID方法都侧重于匹配整体的人的图像,但对被遮挡的图像表现不佳,这限制了在实际监测场景中的适用性。
Occluded Person Re-identification.
鉴于被遮挡的探针图像,被遮挡的行人重识别[48]的目的是在照相机中找到同一位全身出现的人,由于信息不完整和空间不对准,这项任务更具挑战性。卓等人。[48]使用遮挡/非遮挡二进制分类(OBC)损失来从整体图像中区分遮挡图像。在他们接下来的工作中,一个显著性图被预测为了突出区分部分,教师-学生学习方案进一步改进了学习特征。苗等人。[26]基于人类语义关键点提出了一种姿态引导的特征对齐方法来匹配probe和图库图像的局部对齐块。他们使用预先预定义的关键点置信度阈值来确定部件是否被遮挡。Fan等人。[3]使用空间信道并行网络(SCPNet)将部分特征编码到特定的信道中,并融合整体和部分特征,以获得鉴别特征。Luo等人。[23]使用空间变换模块对整体图像进行变换,以与部分图像对齐,然后计算对齐对的距离。此外,还对部分reid任务的空间对齐进行了一些努力。
Partial Person Re-Identification.
伴随着遮挡的图像,部分图像往往发生由于不完善的检测和相机视角的异常值。与被遮挡的人ReID一样,部分行人ReID[45]的目标是将部分 probe图像与存储整体图像相匹配。郑等人。[45]提出了一种全局到局部的匹配模型来捕获空间布局信息。何等人。[7]从整体行人中重建部分查询的特征图,并通过前景-背景掩模进一步改进,以避免[10]中背景杂波的影响。Sun等人 提出是[34]中的一个可见性感知部分模型(VPM),它通过自我监督来学习感知区域的可见性。
与现有的遮挡和部分ReID方法只使用一阶信息进行特征学习和对齐不同,我们使用高阶关系和行人拓扑信息进行特征学习和对齐,从而获得了更好的性能。
3. The Proposed Method
本节介绍了我们提出的框架,包括一个一阶语义模块(S)来提取人类关键点区域的语义特征,一个高阶关系模块®来建模不同语义局部特征之间的关系信息,以及一个高阶人类拓扑模块(T)来学习鲁棒对齐和预测两个图像之间的相似性。这三个模块以端到端的方式进行联合培训。对所提出的方法的概述如图2所示。
在这里插入图片描述
图2。我们所提出的框架的说明。它由一阶语义模块S、高阶关系模块R和高阶拓扑模块T组成。模块S学习关键点区域的语义局部特征。在R中,我们将图像的局部特征视为图的节点,并提出了一个自适应方向图卷积(ADGC)层来传递节点之间的关系信息。在T中,我们将对齐问题视为一个图匹配问题,并提出了一个交叉图嵌入对齐(CGEA)层来联合学习并将拓扑信息嵌入到局部特征中,并直接预测相似性分数。
Semantic Features Extraction.
本模块的目的是提取受两个线索启发的关键点区域的一阶语义特征。首先,基于部分的特征已被证明对个人ReID[35]是有效的。其次,在遮挡/部分ReID[8,34,10]中,局部特征的精确对齐是必要的。根据上述想法,受行人ReID[43,35,24,4]和人类关键点预测[2,33]的最新发展启发,我们利用CNN主干提取不同关键点的局部特征。
请注意,虽然人类的关键点预测已经达到了较高的精度,但它们在遮挡/部分图像[17]下的性能仍然不令人满意。这些因素导致了关键点位置和置信度不准确。因此,需要以下关系和人的拓扑信息,并将在下一节中进行讨论。
具体来说,给定一个行人图像x,我们可以通过CNN模型和关键点模型得到其特征图mcnn和关键点热图mkp。通过外乘积(⊗)和全局平均池化操作(g(·)),我们可以得到关键点区域的一组语义局部特征VlS和一个全局特征VgS。该程序可以用式程来表示。(1),其中K为关键点的数目,vk∈Rc,c为通道号。请注意,mkp是通过使用softmax函数归一化原始关键点热力图而得到的,以防止噪声和异常值。这个简单的操作在实验部分被证明是有效的。
在这里插入图片描述
Training Loss.
在[43,11]之后,我们利用分类和三元组损失作为我们的目标,如Eq.(2)。这里,βk=max(mkp[k])∈[0,1]是第k个关键点信任,和βK+1=1作为全局特征,pvkS是分类器预测, 特征vsk属于其地面真实恒等式的概率,α是一个边距,dvsak,vspk是来自同一恒等式的正对(vSak,vSpkpk)之间的距离,(vSak,vSpk)来自不同的恒等式。分类器针对不同的本地特征不共享。
在这里插入图片描述
3.1. High-Order Relation Learning
虽然我们有不同关键点区域的一阶语义信息,但由于行人图像不完整,被遮挡的ReID更具挑战性。因此,有必要利用更多的区别性特征。我们转向图卷积网络(GCN)方法[1],并试图对高阶关系信息进行建模。在GCN中,不同关键点区域的语义特征被视为节点。通过在节点之间传递消息,不仅可以联合考虑一阶语义信息(节点特征),还可以联合考虑高阶关系信息(边缘特征)。
然而,对于遮挡的ReID仍然存在一个挑战。被遮挡区域的特征往往毫无意义,甚至充满噪声。当在图中传递这些特征时,它会带来更多的噪声,并对被遮挡的ReID产生副作用。(ADGC提出的动机)因此,我们提出了一种新的自适应方向图卷积(ADGC)层来动态学习消息传递的方向和程度。这样,我们就可以自动抑制无意义特征的消息传递,促进语义特征的消息传递。
Adaptive Directed Graph Convolutional Layer.
自适应有向图卷积层一个简单的图卷积层[15]有两个输入,一个图的相邻矩阵A和所有节点的特征X,输出值可通过以下方式计算:其中Aˆ是A的normalized version,W是参数。
在这里插入图片描述
通过基于输入特征自适应地学习相邻矩阵(节点的链接),改进了简单的图卷积层。我们假设给定两个局部特征,有意义的局部特征比毫无意义的局部特征,更相似与全局特征。因此,我们提出了一个自适应有向图卷积(ADGC)层,其输入是一个全局特征Vg和K个局部特征Vl,以及一个预定义的图(相邻矩阵为a)。我们使用局部特征Vl和全局特征Vg之间的差异来动态更新图中所有节点的边的权值,从而得到Aadp。然后可以用Vl和Aadp之间的乘积来表示一个简单的图卷积。为了稳定训练,我们将输入的局部特征Vl与ADGC层的输出融合,就像ResNet[7]一样。详细信息如图3所示。我们的自适应有向图卷积(ADGC)层可以用公式来表示。(3),其中f1和f2是两个未共享的全连接层。
在这里插入图片描述
在这里插入图片描述
图3。所提出的自适应有向图卷积(ADGC)层的说明。A是一个预定义的相邻矩阵,- + x,是元素级的减法、加法和乘法。abs、bn和fc是绝对值、批归一化和全连接层,trans是转置。详情请参阅文本。
最后,我们将高阶关系模块fR作为ADGC层的级联。因此,给定一个图像x,我们可以通过Eq.(1)得到其语义特征VS={vkS}K+1k=1。然后其关系特征VR={vkR}K+1k=1可以表述如下:
在这里插入图片描述
Loss and Similarity
损失和相似性。我们使用分类和三元组损失作为我们的目标。(5),其中Lce(·)和Ltri(·)的定义见Eq.(2)。请注意,βk是第k个关键点置信度。
在这里插入图片描述
给定两幅图像x1和x2,我们可以通过Eq得到它们的关系特征在这里插入图片描述
(4),并计算它们与余弦距离的相似性,如式中。(6).
在这里插入图片描述
3.2. High-Order Human-Topology Learning
基于part的特征已被证明对行人ReID[35,34]非常有效。一个简单的对齐策略是直接匹配相同关键点的特征。然而,这种单阶对齐策略不能处理一些坏的情况,如异常值,特别是在严重遮挡的情况下,[17]。图匹配[40,38]可以自然地考虑高阶人类拓扑信息。但它只能学习一对一的通信。这种硬对齐仍然对异常值很敏感,并对性能有副作用。在该模块中,我们提出了一种新的交叉图嵌入对齐层,它不仅可以充分利用图匹配算法学习到的人-拓扑信息,而且可以避免敏感的一对一对齐。
Revision of Graph Matching.
图形匹配的修订。从图像x1和x2中给出两个图G1=(V1、E1)和G2=(V2、E2),图匹配的目标是学习V1和V2之间的匹配矩阵U∈[0,1]K×K。设U∈[0,1]为一个指标向量,使Uia为v1i和v2a之间的匹配度。建立了一个平方对称的正矩阵M∈RKK×KK,使Mia;jb测量每对(i、j)∈E1与(a、b)∈E2的匹配程度。对于不形成边的对,它们在矩阵中对应的条目被设置为0。对角线包含节点到节点的分数,而非对角线包含边到边的分数。因此,最优匹配的u∗可以表述如下:
在这里插入图片描述
在[40]之后,我们根据一元点特征和成对点特征来参数矩阵M。该优化过程由幂次迭代和双随机运算组成。因此,我们可以在具有随机梯度下降的深度学习框架中优化U。受页面限制,我们没有显示更多的图匹配的细节,请参考论文[38,40]。

Cross-Graph Embedded-Alignment Layer with Similarity Prediction.
具有相似性预测的交叉图嵌入式对齐层。我们提出了一种新的交叉图嵌入对齐层(CGEA),它既考虑了GM图匹配学习到的高阶人类拓扑信息,又避免了敏感的一对一对齐。所提出的CGEA层从两幅图像中提取两个子图作为输入,并输出嵌入的特征,包括语义特征和人类拓扑引导下的对齐特征。
在这里插入图片描述
图4。交叉图嵌入式对齐层的说明。这里,⊗是矩阵乘法,fc+relu表示全连通层,归正线性单位,GM表示图匹配操作,U是学习到的亲和矩阵。详情请参阅文本。
我们提出的CGEA层的结构如图4所示。它需要两组特征,并输出两组特征。首先,通过两组在这里插入图片描述
,我们将它们嵌入到全连接层和ReLU层的隐藏空间,得到两组隐藏特征在这里插入图片描述
。其次,我们通过方程对V1h和V2h进行图匹配。(7),得到V1h和V2h之间的亲和矩阵U k×k。这里,U(i、j)表示v1hi和v2hj之间的对应关系。最后,输出可以用式程表示。(8),其中[·、·]表示沿通道尺寸的连接操作,f为全连接层。
在这里插入图片描述
我们用一个级联的CGEA层fT和一个相似度预测层fP来实现了我们的高阶拓扑模块(T)。给定一对图像(x1、x2),我们可以通过Eq(4)得到它们的关系特征(V1R、V2R)。,然后是他们的拓扑特征(V1T,V2T)通过Eq.(9)。得到拓扑特征对(V1T、V2T)后,可以用方程计算其相似性。(10),其中|·|为元素级消解操作,fs为CT到1的全连接层,σ为s型激活函数。
在这里插入图片描述
验证损失。我们的高阶人拓扑模块的损失可以用方程来表示。(11),其中y是他们的 ground truth,y=1 if(x1,x2)来自同一个人,否则y=0。
在这里插入图片描述
4. Train and Inference推理
在训练阶段,我们的框架的整体目标函数用式表示。(12),λ∗相应术语的权重。我
们通过最小化L来端到端的训练我们的网络。
在这里插入图片描述
对于相似性,给定一对图像(x1,x2),我们可以从Eq中得到它们基于关系信息的相似性sRx1,x2。(6)和基于拓扑信息的相似性sTx1,x2,来自Eq.(10)。最终的相似性可以通过梳理这两种相似性来计算出来。
在这里插入图片描述
当推断时,给定一个查询图像xq,我们首先计算它与所有图库图像的相似性xR,并得到它的前n个最近邻。然后我们计算方程中的最终相似性s。用(13)来细化顶部的n。
5. Experiments
5.1. Implementation Details

模型架构。对于CNN主干,就像在[43]中一样,我们利用ResNet50[7]作为我们的CNN主干,通过去除其全局平均池(GAP)层和全连接层。对于分类器,在[24]之后,我们使用一个批处理归一化层[13]和一个完全连接层,然后是一个softmax函数。对于人类关键点模型,我们使用在COCO数据集[20]上预先训练过的HR-Net[33],这是一个最先进的关键点模型。该模型预测了17个关键点,我们融合了头部区域的所有关键点,得到了最终的K=14个关键点,包括头部、肩膀、肘部、手腕、臀部、膝盖和脚踝。
训练细节。我们使用Pytorch实现了我们的框架。这些图像的大小被调整到256×128,并增加了随机水平翻转、填充10个像素、随机裁剪和随机擦除[47]。当对遮挡/部分数据集进行测试时,我们使用额外的颜色抖动增强,以避免域方差。批量大小设置为64,每人4张图像。在训练阶段,所有三个模块以端到端方式联合进行120个epochs的训练,初始化学习率为3.5e-4,并在30和70个阶段衰减为0.1。有关具体的实现情况,请参阅我们的代码。
评估指标。我们像大多数人的ReID文献一样使用标准指标,即累积匹配特征(CMC)曲线和平均平均精度(mAP),来评估不同的人的再识别模型的质量。所有的实验都是在单个查询设置中进行的。
5.2. Experimental Results
Results on Occluded Datasets.
我们在两个遮挡数据集上评估了我们提出的框架,即遮挡Duke[26]和遮挡reid[48]。Occluded-Duke是从DukeMTMC-reID中选择,留下遮挡图像并过滤掉一些重叠图像。它包含15618张训练图像、17661个图库图像和2210张被遮挡的查询图像。被遮挡-reid由mobile 相机捕获,由200名被遮挡者的2000张图像组成。每个身份都有5张全身人图像和5张带有不同类型严重遮挡的遮挡人图像。
在这里插入图片描述
比较了四种方法,分别是普通的整体REID方法[41,35]、具有关键点信息[32,5]的整体ReID方法、部分REID方法[45,8,9]和遮挡ReID方法[12,49,10,26]。实验结果如表2所示。正如我们所看到的,在普通的整体ReID方法和具有关键点信息的整体方法之间没有显著的差距。例如,PCB[34]和FD-GAN[5]在被遮挡的-duke数据集上都获得了大约40%的rank-1分数,这表明仅仅使用关键点信息可能不会显著有利于被遮挡的ReID任务。对于部分ReID和遮挡ReID方法,它们在遮挡数据集上都有明显的改进。例如,DSR[8]获得72.8%,FPR[10]获得78.3%的rank-1分数。这表明了遮挡和part ReID任务也有类似的困难,即学习辨别特征和特征对齐。最后,我们提出的框架在Occludeduke和Occlude-REID数据集上的性能最好,分别为55.1%和80.4%,显示了其有效性。
Results on Partial Datasets.
伴随着被遮挡的图像,part的图像往往由于检测不完善、相机视图的异常值等而出现。为了进一步评估我们提出的框架,在表3中,我们还报告了两个部分数据集的结果,部分reid[45]和部分iLiDS[8]。部分reid包括来自60人的600张图像,每人有5张全身图像和5张部分图像,只用于测试。部分lids基于iLIDS[8]数据集,包含来自机场多个不重叠摄像机捕获的119人的238张图像,它们的遮挡区域是手动裁剪的。在[34,10,49]之后,由于这两个部分数据集太小,我们使用Market-1501作为训练集,并使用这两个部分数据集作为测试集。正如我们所看到的,我们提出的框架在两个数据集上的rank-1得分显著优于其他方法至少2.6%和4.4%。
在这里插入图片描述
Results on Holistic Datasets.虽然最近的 遮挡/部分ReID方法在遮挡/部分数据集上得到了改进,但它们在整体数据集上往往无法得到令人满意的性能。这是由特征学习和对齐过程中的噪声引起的。在这部分中,我们展示了我们提出的框架也可以在整体ReID数据集上,包括Market-1501和DuekMTMTC-reID等数据集上实现令人满意的性能。Market-1501[42]包含从6个摄像机视点观察到的1501个身份,19732个画廊图像和12936个训练图像,所有数据集包含很少的遮挡或部分人图像。DukeMTMC-reID[28,46]包含1,404个身份、16,522个训练图像、2,228个查询和17,661个图库图像。
具体来说,我们在两个整体ReID数据集market-1501[42]和DukeMTMCreID[28,46]上共同进行实验,并与3种普通REID方法[35,34,24]、3种具有人工解析信息[14,30,27,10]的REID方法和4种具有关键点信息[31,21,29,26]的整体ReID方法进行比较。实验结果如表4所示。正如我们所看到的,3种普通的整体ReID方法获得了非常具竞争力的性能。例如,BOT[24]在两个数据集上分别获得了94.1%和86.4%的rank-1分。然而,对于使用外部线索的整体ReID方法,这样的人性化解析和关键点信息的表现更差。例如,SPReID[14]使用了人类解析信息,在Market-1501数据集上只获得了92.5%的Rannk-1分数。PFGA[26]使用关键点信息,在DukeMTMC-reID数据集上只获得82.6%的rank-1分。这表明,简单地使用外部线索,如人工解析和关键点,可能不会改进整体REID数据集。这是由于大多数图像的整体ReID数据集都被很好地检测到,普通的整体ReID方法足够强大,足以学习鉴别特征。最后,我们提出了一个可以抑制噪声特征的自适应方向图卷积(ADGC)层和一个可以避免交叉图嵌入对齐的交叉图嵌入对齐(CGEA)层的一对一对齐。通过提出的ADGC和CGEA层,我们的框架也在两个整体ReID数据集上实现了相当的性能。具体来说,我们在Market-1501和DukeMTMC-reID数据集上获得了约94%和87%的rank-1分数。
在这里插入图片描述
5.3. Model Analysis
Analysis of Proposed Modules.
这部分中,我们分析了我们提出的一阶语义模块(S),高顺序关系模块®和高阶人拓扑模块(T)。实验结果如表5所示。首先,在index-1中,我们将所有三个降级框架的框架删除为IDE模型,其中只有一个全局特性Vg可用。其性能不令人满意,仅达到49.9%的rank-1分。其次,在索引-2中,当使用一阶语义信息时,性能提高了2.5%,排名得分高达52.4%。这表明,来自关键点的语义信息对于学习和对齐特征是有用的。第三,在索引-3中,添加了额外的高阶关系信息,性能进一步提高了1.5%,达到53.9%。这证明了我们的模块r的有效性。最后,在索引-4中,我们的完整框架在55.1%的rank-1分数上达到了最好的准确性,显示了我们的模块T的有效性。
在这里插入图片描述
Analysis of Proposed layers. 在这部分中,我们进一步分析了关键点置信度(NORM)、自适应方向图卷积(ADGC)层和交叉图嵌入对齐(CGEA)层的归一化,它们是语义模块(S)、关系模块®和拓扑模块(T)的关键组成部分。具体来说,当删除NORM时,立即使用原始置信分数。当删除ADGC时,在Eq中。(3),我们用一个固定的邻接矩阵替换链接的Aadj。因此,关系模块(S)退化为噪声信息不能抑制的普通GCN。当删除CGEA时,在Eq中。(8),我们用一个全连通矩阵替换U1和U2。即,图1的每个节点都连接到图2的所有节点。然后,拓扑模块(T)不包含用于特征对齐的高阶人拓扑信息,并降级为一个普通的验证模块。实验结果如表6所示。正如我们所看到的,当删除NORM、ADGC或CGEA时,性能显著下降了2.6%、1.4%和0.7%。实验结果表明了我们提出的NORM、ADGC和CGEA组件的有效性。
在这里插入图片描述
参数分析。我们评估了方程中参数的影响。(13),即γ和n。结果如图5所示,最优设置为γ=0.5和n=8。当分析一个参数时,另一个是固定在最优值上。很明显,当使用不同的γ和n时,我们的模型稳定地优于基线模型。实验结果表明,该框架对不同的权值具有鲁棒性。请注意,这里的性能与表2不同,前者达到57%,而后者达到55%。这是因为后者平均计算10次以进行公平比较。
在这里插入图片描述
6.Conclusion
在本文中,我们提出了一个新的框架来学习高阶关系信息为了鉴别特征和学习拓扑信息为了稳健对齐。对于学习关系信息,我们将图像的局部特征表示为图的节点,并提出了一个自适应方向图卷积(ADGC)层来促进语义特征的信息传递,抑制无意义和无噪声特征的信息传递。对于学习拓扑信息,我们提出了一种具有验证损失的交叉图嵌入对齐(CGEA)层,它可以避免敏感的硬一对一对齐,并执行鲁棒的软对齐。最后,在遮挡、部分和整体数据集上的广泛实验证明了我们提出的框架的有效性。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zqx951102

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值