01-Progressive Attribute Embedding for Accurate Cross-modality Person Re-ID

题目:Progressive Attribute Embedding for Accurate Cross-modality Person Re-ID(用于准确的渐进属性嵌入的跨模态行人重识别)

期刊:ACM MM 2022
CCF A类
代码:无

研究背景

· 问题
 匹配可见和红外相机拍摄的人的图像?
 包含挑战:1.视图变化,照明和背景混乱等常见挑战
  2.异质性导致同一个人在两种模式中的特征分布之间存在很大距离
  3.由于光线或者遮挡的影响,RGB-IR存在大的类间相似性和类内差异

 现有解决方法:
 1.基于GAN的方法,试图通过生成相应的模态图像来弥合模态差异。 【24,28,35】
 可能问题:模态之间的固有差异可能会破坏局部结构,并在生成过程中引入不可避免的噪声
 2.模态共享特征学习方法,致力于将异构模态特征投影到统一空间中,以减少跨模态差异。
 可能问题:这两个类别都倾向于学习用于模态特征表示的全局图像级信息。较大的跨模态异质性显著阻碍了判别特征的表示。

属性作为辅助信息来增强视觉任务发展历程:
【42】指出肤色无关的人属性在跨模态中是不变的。提出端到端网络,该网络使用额外的属性标签作为辅助信息来弥合跨模态的差距。通过额外的属性分类分支预测人的属性,它可以在属性和身份分类损失的共同监督下学习模态变量和身份特定的局部特征。
存在问题:1) 它只结合属性损失对网络进行微调,没有考虑到属性和图像之间的内部联系,以及属性之间的潜在交互。2) 与全局图像标识信息不同,属性是语义上细粒度的信息,在网络训练过程中很容易丢失。因此,类内差异和类间相似性的挑战(在图1(b)中的矩形框内)仍未得到很好的解决。

· 解决办法
 首先,1.文章提出一个渐进属性嵌入模块(PAE),以有效地融合细粒度的语义属性信息和全局结构视觉信息。作者采取新颖的级联方式,利用属性信息来学习不同模态中人物图像之间的关系,从而缓解了模态的异质性。
 2.与此同时,通过嵌入属性信息来指导更具判别性的图像特征生成,用来降低了类间相似度和类内差异。
 3.最后,还提出了一种基于属性的辅助学习策略(AAL),通过联合属性和身份分类损失来监督网络学习模态不变和身份特定的局部特征。PAEAAL 在端到端框架中进行联合优化,即渐进式属性嵌入网络**(PAENet)**

论文分析

注意:属性(如性别,年龄,服装)与全局图像身份信息不同,属性是语义上细粒度的信息,非常容易在网络训练过程中丢失
渐进属性嵌入网络(PAENet)用来全面整合属性信息和图像信息,

PAE包括三个级别的嵌入。

  1. 第一级嵌入依赖于交叉注意机制,它通过关键查询之间的相互作用来学习不同模态之间的互补信息。通过这种嵌入,图像和属性之间的语义空间差距得以有效减小。
  2. 与属性相关联的区域可以自适应地提供有辨别力的细节,以实现细粒度匹配。因此,我们设计了第二级嵌入,通过属性引导的关注机制动态选择每个模态内与属性相关的外观区域用于细粒度匹配
  3. 最后,某个区域可能包含多个属性,它们对于识别有不同的影响。因此,三级嵌入被用来协作地利用通道关注作为逐元素门控函数以选择关键属性。通过级联这些嵌入,PAENet可以逐渐实现属性和图像的有效整合。与此同时,它可以协同地学习不同属性之间的关系。

贡献点:

  1. 渐进式属性嵌入PAE(progressive attribute embedding),有效地利用属性和图像之间的内部联系,以及属性之间的潜在交互来提高跨模态 Re-ID性能,并且在网络训练中还利用了属性的细粒度信息。
  2. 基于属性的辅助学习方案AAL(attribute-based auxiliary learning),进一步提高了由属性引导的图像的判别表示,同时保持效率。

相关工作

发展历程

  1. 在RGB-IR ReID中,Wu等人[31]首先贡献了一个大型基准数据集(SYSU-MM01),并提出了一种用于RGB-IR图像匹配的单流零填充网络。目前的研究主要致力于处理模态差异的共享特征学习方法。
  2. Ye等人[38]为跨模态设计了一个新的基线ReID,它使用非本地注意力块来实现有竞争力的性能。
  3. Lu等人[18]提出了一种新的跨模态共享特定特征转移算法,以探索模态共享信息和模态特定特征的潜力。
  4. 同时,其他工作[12,16,29,36]研究了处理模态间隙的有效损失函数。

然而,上述方法大多侧重于提高类内跨模态相似性,而忽略了扩大类间特征差异的问题。
同时,一些方法从生成对抗性训练的角度,利用GAN技术探索跨模态表征学习。

  1. cmGAN[5]是基于GAN的跨模态人ReID的首次尝试。戴等人[5]提出了一种端到端生成网络,该网络由一个提取特征的生成器组成从两个不同的模态和鉴别器来区分模态特征。
  2. 王等人[25]提出生成跨模态配对图像,并执行全局集级和细粒度实例级比对,这可以很好地减少模态变化。

尽管这些方法生成相应的跨模态图像或特征以减少模态异质性,但是生成的图像或特征是不可靠的,不可避免的会产生噪声。同时,红外图像在可见光图像中缺乏丰富的颜色纹理信息[29],因此直接转换跨模态图像/特征是不合理的

  1. 【17】用属性标签标记了两个最大的数据集Market-1501和DukeMTMC reID,同时学习了reID模型来预测行人的语义属性。
  2. 【14,21】利用属性来帮助监督联合训练,从而增加身份的区分特征并增强图像对的相关性。
  3. 【40】使用特征聚合策略来充分利用属性信息。
  4. 【20,26,28】为了减少对属性注释的依赖,提出了无监督方法.

虽然属性识别和ReID都是分类任务,但前者倾向于细粒度识别,后者属于全局视觉信息识别。然而,上面提到的大多数方法都忽略了这两个任务以及属性之间的内在关系。

网络框架

在这里插入图片描述
渐进式属性嵌入网络(PAENet)概述上所示。输入图像包括可见光和红外图像,首先被送入双流网络,以增加图像特征。然后,提出了渐进式属性嵌入(PAE)来融合属性和图像特征,促进鉴别模态无关特征的学习,并分配更准确的局部特征。同时,要避免误解!由于属性信息过多干扰导致的身份识别问题,提出了基于属性的辅助学习(attribute-based auxiliary learning, AAL)来辅助生成更好的属性特征表示。这两个组件集成成一个整体!并能相互促进。

1、 Baseline(基线)

传统的双流网络被用作附加功能的主干。
首先,作者设置模态特定特征网络, c o n v m conv^{m} convm ,m∈[v, t],就是说, c o n v con^{v} conv 代表的是可见光的网络, c o n v t conv^{t} convt 是红外的,通过上述操作,得到了属于各自模态的各自特征,再使用特征嵌入网络 c o n v s conv^{s} convs 将这些模态特定特征映射到共享的公共特征空间,规定可见光图像为 I v I^{v} Iv R 3 × H × W R^{3×H×W} R3×H×W ,同理,红外也是一样 I t I^{t} It R 3 × H × W R^{3×H×W} R3×H×W
在公共特征空间学习到的 3D 人物特征, F v F^{v} Fv F t F^{t} Ft 在公共特征空间的表示如下:
在这里插入图片描述
其中, F m F^{m} Fm R C × H × W R^{C × H × W} RC×H×W。C:通道编号,H:图像高度,W:图像宽度。作者这里采用的是 ResNet-50 的一个主干网络,并且在每个分支上又包含有一个预训练模型,(预训练模型该模型继承了ResNet-50在全局平均池化层(GAP)之前的架构,同时作者还去除了最后一次的下采样操作,这会丰富特征粒度),然后使用 Gem-pool 来获得新的粒度特征( f m f^{m} fm)。

作者采取了主流的一些方法【3,12,16】来对特征进行约束,将这些得到的特征池用于后续的识别任务。使用了流行的 MMD 【12】(MMD(Max mean discrepancy 最大均值差异),度量两个不同但相关的分布的距离)作为基线,它利用身份损失Lid,MMD 提出的最大平均差异损失 LMMD和异中心三重态损失LHc-Ti来约束网络,那么基线本身的学习损失 Lb表示如下。
在这里插入图片描述

2.progressive Atttibute Embedding(渐进属性嵌入)

为了解决图像和属性之间的差异,PAE 模块以渐进嵌入的方式混合这两种类型的信息,以弥合跨模态的差距。
具体来说,

  1. 第一种嵌入旨在减少图像和属性之间语义空间的差异;
  2. 第二次嵌入通过属性引导注意动态选择与属性相关的外观区域;
  3. 第三种是协同探索不同属性与丰富的上下文信息之间的联系。

首先呢,使用一个热向量 A m A^{m} Am来表示属性, A m A^{m} Am={a1,a2,…,an,},ai∈ [0,1],n表示属性数量,m∈[v,t]表示RGB/IR模态,这就是对属性做了一个预处理设置操作。将得到的属性向量 A m A^{m} Am映射到 2048 维度的特征向量 ( f m f^{m} fma),结合图像特征 f m f^{m} fm和 属性嵌入特征 f m f^{m} fma,目标是学习属性增强特征,用来学习全局视觉信息和局部细节信息。
在这里插入图片描述
**Embedding-I.**属性是细粒度的语义信息,而图像属于全局结构视觉信息。因此,属性和图像之间存在很大的差距。作者认为交叉注意机制可以通过一种简单而强大的推理机制发现不同信息之间隐藏的关系。Embedding-I 就是想通过交叉注意机制,从图像和属性中提取有用信息,挖掘关键信息。
具体做法,在属性这边使用到了一个 linear 层来将得到的属性嵌入特征的维度转化为和图片一样的维度(线性映射来对齐属性和图像特征的维度),然后将图像跟属性一起馈送到交叉自注意力机制。为了有效融合属性和图像,图像特征( f m f^{m} fm)作为查询(Q),同时图像特征( f m f^{m} fm)和属性特征( f m f^{m} fma)进行串联操作(级联运算),随后分别作为键(K)和值(V)。
使用以下表达式实现融合操作:
在这里插入图片描述
图解:W:查询,Q:键,V:值,d 是嵌入特征的维度。
在 Embedding-I 框架图中可以看见,交叉关注基于查询(Q)和关键字(K)之间可训练的关联关系。它包含两个残差连接,归一化层和简单的前馈网络,最终,网络可以学习到清晰的结构信息和微妙的像素级特征( f m f^{m} fme1),就是转到 Embedding-II 模块的emb1_feat。
在这里插入图片描述

Embedding-II. Embedding-I采用长期依赖关系而不是局部空间方法来融合属性和图像特征。
但是,它不能使用属性特征来引导图像特征的传递,并且属性是非常详细的信息,在训练网络的过程中很容易丢失。为此,我们级联了属性引导的注意机制,以帮助处理属性信息的缺乏。我们认为不同的属性对应到图像上的不同位置。对于属性特征,我们只需要关注特定的相关领域。因此,为了自适应地感知属性相关区域并传递最具区别性的细节信息,随后,我们引入了第二个嵌入,通过使用空间注意力机制和特定属性的引导。具体来说,我们首先通过线性层和空间复制(11卷积层和整形操作)来处理属性。然后,我们在融合特征( f m f^{m} fme1)上使用11卷积层,将其维度和大小与空间复制操作后的属性特征统一。为方便表示,将属性处理和嵌入特征分别记为p1和p2。特征映射后,得到关注权值.
在这里插入图片描述

其中,⊙表示元素相乘,conv是1*1卷积层,并且使用softmax来获得自适应注意力权重,将其与图像特征相乘以获得空间注意力引导特征( f m f^{m} fme2)。在这种嵌入之后,模型自适应地聚焦于图像的特定区域。

Embedding-III. 嵌入-III。尽管第二嵌入可以自适应地聚焦于特定图像区域,但是特定区域可以与多个属性相关联。此外,一些属性可能对识别性能产生负面影响,而另一些则是积极的。为了区分不同属性的重要性,我们进一步提出了第三种嵌入方法,将通道注意力作为元素门控函数,可以在不同属性中选择对网络性能有积极影响的属性。
具体来说,我们首先使用一个线性层将属性( A m A^{m} Am)嵌入到嵌入向量中。我们将前两次嵌入后的属性嵌入向量( f m f^{m} fma)和图像特征( f m f^{m} fme2)进行连接,然后再连接n个完全连接层和sigmoid函数,得到通道关注权值。
在这里插入图片描述
式中i∈[1,2,···,n],n为属性个数。然后将权重( w m w^{m} wm)与特征映射( F m F^{m} Fm)相乘,最终得到n个不同的特征.
在这里插入图片描述

3. Attribute-based Auxiliary Learning(基于属性的辅助学习)

经过三层渐进属性嵌入,融合特征( F m F^{m} Fme)可以很好地将属性信息融入图像特征中。但是,在弱化身份信息的同时,可能会对属性信息产生极大的偏向。因此,我们仅在训练阶段提出基于属性的辅助学习(AAL)模块。

本模块的目的是使用辅助属性分类任务来帮助学习更详细的身份信息学习。
通过这种方式,属性和图像就可以利用各自的有用信息相互补充并增强特征表示。此外,该模块引入了原始图像特征,用于帮助为属性分类任务生成更好的属性特征。我们首先将池化后的所有融合特征( f m f^{m} fmi)连接起来,然后计算注意力权重。
在这里插入图片描述
然后,我们复制由特征提取器获得的合并特征( f m f^{m} fm)的n个副本,然后将它们与(W1)相乘,以避免丢失全局信息。接下来,我们使用全连通(FC)层来获得属性特征表示( f m f^{m} fmatr),它可以很好地反映属性相关区域的信息。
属性丢失。我们为( f m f^{m} fmatri)添加了属性分类分支,并设置了一个属性分类器,通过附加属性标签(p-1)的约束来获得属性预测(q-1)。在我们的模型中,使用二进制交叉熵损失进行优化,损失计算公式如下,
在这里插入图片描述
其中M表示小批量中的人数.

4.Optimization(优化)

对于身份分类任务,我们首先计算在前一模块中获得的n个特征图( F m F^{m} Fme)的平均值,然后通过sigmoid函数计算注意力权重:
在这里插入图片描述
其中所生成的注意力权重反映了局部区域与相应属性之间的相关性。最后,我们将其与特征提取器提取的特征图(FM)相乘,并在池化后获得最终的人物特征(FM id)表示。
通过这种方式,最终的图像特征可以继承来自不同模式的信息,并捕获明确的结构信息和细微的像素级特征。因此,我们可以获得行人的属性特征(fmatr)和图像特征(fmid),其中m∈[v,t]表示RGB/IR模态。
图像特征用于后续的人物ReID任务,并且通过在AAL模块中联合使用基线损失Lb和属性损失Latr来训练整个网络。总体目标函数为,
在这里插入图片描述

其中入是一个超参数。不同事件任务的约束使网络同时学习模态无关和身份一致的特征,这对跨模态ReID具有更强的鲁棒性和判别性。

实验结果

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值