跨模态行人重识别:Cross-Modality Person Re-Identification via Modality Confusionand Center Aggregation笔记

基于模态混淆和中心聚合的跨情态人称再识别

简述

大多数已有的方法都集中在使用身份监督或模态标签来学习模态特定或模态可共享的特征。 与现有方法不同,本文提出了一种新的情态混淆学习网络(MCLNET)。 它的基本思想是混淆两种模态,确保优化明确地集中在模态无关的角度上。 具体来说,MCLNET的设计是通过在单个框架中同时最小化模态间差异和最大化实例间的交叉相似性来学习模态不变特征。 此外,引入了身份感知的边缘中心聚集策略来提取中心特征,同时在边缘约束下保持多样性。 最后,我们设计了一个摄像机感知的学习方案来丰富识别性。 在SYSU-MM01和regdb数据集上进行的大量实验表明,MCLNET的性能大大优于现有技术。 在大规模SYSU-MM01数据集上,模型的RANK-1精度和mAP值分别达到65.40%和61.98%。

贡献

(1) 提出了一种新颖的模态混淆学习网络 (MCLNet)。提取与模态无关的表示形式是一种有效的学习结构,从而增强了学习的表示形式对模态变化的鲁棒性

(2)引入了一种身份感知的边际约束中心聚合策略。它提取集中化特征,同时保持多样性,以获得具有边际约束的更好的泛化能力。

(3)设计了一种相机感知学习方案,该方案应用相机标签监督,通过相机感知表示来丰富可分辨性。

模态混淆学习

         通过最小化了模态间差异,最大化了跨模态相似性。应用混淆学习机制来欺骗网络,使可见模态与红外模态混淆。避免了生成的交叉模态图像质量差和噪声的风险,并直接对两种模态的嵌入进行操作。目标是实现一种困惑,即模态分类器无法区分输入图像的模态。

        对于每个样本图像xi,都有 σ 一个身份标签yi,一个真实的模态标签ti和一个混淆的模态标签oi,对于每个输入样本xi,真实模态标签ti对于可见图像被设置为 [1,0],对于红外图像被设置为 [0,1]。对于混淆的模态标签oi,对于来自两种不同模态的所有样本,将其设置为 [0.5,0.5]。我们的模态混淆学习需要两个组件: 特征提取器和模态混淆模块M。我们用参数 θ M表示M,作为模态混淆模块 (MCM)。它本质上是一个两层分类器,其目的是准确地将输入图像区分为某种模态。对于提取特征fxi的样本xi,M输出模态预测概率pm(fxi),我们将其与真实模态标签ti进行比较。M的损失函数可以公式化为:

其中,N表示批次中的样本编号,xi是第i个输入样本。给定一个学习的特征提取器 θ e和模态分类器 θ m,样本xi被正确分类的概率由pm(fxi,θ m; Θ e) 表示,并由softmax函数归一化。

        特征提取器的目的是提取模态不变和区分性的特征。同样,我们用参数 θ E构造E作为特征提取器。为了实现模态混淆,我们将特征提取器的预测概率与混淆的模态标签oi进行了比较。而损失函数可以公式化为:

        在训练阶段,我们交替更新 θ m和 θ e,直到它们达到平衡。Θ e表示特征提取器,其目的是通过使特征分布尽可能相似来最大化模态混淆模块的损失。Θ m表示模态混淆模块,旨在最大程度地减少模态分类器的损失,以帮助网络区分模态。Θ m和 θ e可以优化如下:

 身份感知边际中心聚合

         大多数现有方法都采用中心损失来同时学习每个类的中心进行特征嵌入,并惩罚样本与其相应类之间的距离。中心损失 可以表示为:

 其中xi表示第i个输入样本,cyi中心,fxi是第yi  类是特征提取器提取的嵌入。

        将中心损耗应用于解决人脸识别问题 ,并取得了良好的性能。主要原因是面孔具有很强的中心性。然而,人的特征受到许多因素的影响,尤其是当cm-ReID遭受较大的跨模态差距时。从两种模式中严格集中具有相同身份的图像将牺牲不同人物图像的多样性,从而导致测试集的泛化能力有限。考虑到这一点,我们提出了一种身份感知的边际中心聚合策略 (ICA),以温和地提取集中式特征并考虑区分性信息。

(a) 中心损失和 (b) 识别边缘中心聚集之间的比较。不同的颜色代表来自不同身份的嵌入特征。中心损失使所有样本接近相应类别的中心  (a)。不同的是,ICA将相同身份的特征限制在一定范围内 (b)。应用约束余量 σ 以确保属于同一类的样本不太靠近中心,防止特征过度拟合到特征中心,以适度保持身份描述的多样性,即使在不同的模式下也是如此。这种多样性可以为网络提供更多特定于样本的信息,以区分不同的人身份。ICA鼓励统一分布在高维球体上的相同身份的特征,而不是盲目追求表示相似性。用于身份预测的ICA的损失可以表示为:

 foyi是最接近中心cyi的特征嵌入,Σ 是表示某个类的球体半径的超参数。在等式的右侧,第一项中的第一元素是中心损耗的一般形式,其表示图3 (a) 和 (b) 中的外圆 (灰色) 约束。第二个元素是样本和中心cyi之间的最小距离。减去它,以便将样本特征逐渐从中心cyi移开一小部分。超参数 σ 迫使样本与其身份中心保持合理的距离。在图3 (b) 中,σ 可以看作内圆的半径 (红色)。这种设计避免了过于严格的中心集中。第二项计算不同身份中心的最小距离。通过在不同的身份中心之间应用多个约束,网络比较身份相似性而不是样本相似性。

摄像机感知边缘中心聚合

        考虑到较大的相机差异,本节提出了一种利用相机标签信息进行进一步改进的策略,从而加强了模态不变特征学习。

1) 不同的相机内部参数不同。

2) 不同的相机具有不同的背景和视角。

3) 摄像机之间通常没有重叠区域。

        提出了一种摄像机感知的边际中心聚合策略 (CCA)。我们的目标是让网络学习有关不同摄像机的歧视性信息。具体来说,我们希望网络也关注来自不同摄像机的图像差异,因为这些摄像机通常在不同的模式或不同的环境中工作。在ICA和CCA的共同约束下,鼓励网络在不同摄像机下挖掘同一个人之间的隐式身份关联信息。相机感知边际中心聚集损失可以表示为:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值