跨模态行人重识别:Hetero-Center Loss for Cross-Modality Person Re-Identification学习记录笔记

原文链接:https://www.sciencedirect.com/science/article/pii/S0925231219318156

目录

摘要

方法

CE loss

Hetero-Center Loss

Two-Stream Local Feature Network

特征提取

特征嵌入

试验

测试

结果


摘要

(1)提出了一种新的损失函数,称为 Hetero-Center loss (HC loss),以减少类内跨模态变化,通过约束两个异质模态之间的类内中心距离来监督网络学习跨模态不变信息。在交叉熵(CE)损失和HC损失的联合监督下,训练网络以尽可能地实现两个重要目标,即类间差异和类内跨模态相似性。

(2)提出了一种称为两流本地特征网络 (TSLFN) 的网络框架,采用水平切块的方式学习局部特征。为了将不同模态的特征投影到同一子空间中,将共享权重的全连接层用于两个分支中的相应条纹。

方法

CE loss

        传统的损失函数无法监督网络提取模态共享信息。例如,CE损失函数计算如下:

 交叉熵的目标是提取特定于身份的信息进行分类。 但是损失函数并没有约束网络有效地提取模态共享信息以形成特征描述符,因为一些模态特定信息也是引导网络正确预测身份的身份特定信息。

CE 损失监督的典型特征分布:

 不同颜色的点表示属于不同身份的特征。 不同形状的点表示从不同模态的图像中提取的特征。 不同形状的红点表示每个身份中不同模态的特征中心。

Hetero-Center Loss

        损失函数计算两个模态分布之间的中心距离,来提高类内跨模态相似性。公式如下:

         但是每个样本在每次迭代中学习每个类的两个中心,这需要大量且不切实际的计算成本。因此,在一个小批量中而不是在整个训练集中计算每个类的两个模态中心。在每次迭代中,我们从训练集中随机选择 L 个身份。 然后,我们随机选择每个选择的身份的 T 个 RGB 图像和 T 个红外图像组成一个 mini-batch,所以它的大小是 2xLx T=K。由于多次迭代中的随机抽样,小批量中的局部约束与整个训练集中的全局约束具有相同的效果。

        HC loss 限制每个类的中心距离以提高类内跨模态相似性 ,CE loss 扩大类间差异。采用了 HC 损失和 CE 损失的联合监督。 整体损失函数为

 不同 \lambda的特征分布如图:

 

         随着 \lambda的增加,不同模态的特征分布被拉得更近,不同模态的两个特征中心之间的距离更小,意味着对于不同的异质图像,学习到的特征表示更一致,网络更倾向于提取模态共享信息以形成特征表示。

Two-Stream Local Feature Network

提出了两流本地特征网络 (TSLFN),其体系结构如图所示:

         该网络包含两种模式的两个分支。 在每个分支中,输入图像都进入 Resnet-50 主干。 然后,从主干输出的特征图被传统的平均池化层分成 p 个条带。 对于每个条带,权重共享 FC 层降低了特征的维度。 之后,将降维特征输入到 L2-Norm 层和 FC 层,计算 HC 损失和 CE 损失。 在测试阶段,所有的降维特征被连接起来形成最终的描述符。

特征提取

        去掉了Resnet50 中最后的下采样操作,扩大接收的面积,丰富特征的粒度,从主干输出的特征图在水平方向上被均匀地划分为 p 个条带。 每个条纹被平均成一个局部特征向量。 之后,我们采用全连接(FC)层来降低每个局部特征向量的维数。 为了弥合两种模式之间的差距,两个分支中对应的全连接层共享相同的权重。

特征嵌入

监督网络学习特征表示,尽可能扩大类间差异和提高类内跨模态相似度。,我们采用 HC loss 和 CE loss 来监督网络的训练,对于 HC 损失,特征向量在计算损失值之前要经过 L2 归一。对于CE损失,将局部特征向量输入到分类器中,分类器由FC层和softmax激活层组成。 有p个局部特征向量需要输入到具有独立参数的不同分类器中。 然后,分类器分别预测每个特征向量的身份。 对于每个分支,我们根据分类器的预测值和输入图像的身份计算 CE 损失。

试验

测试

训练阶段, 行人图像被调整为 288×144。 随机裁剪和随机水平翻转用于数据增强。 批次大小为 64。为了实现提出的采样策略,批次中的身份数量设置为 4。因此,在批次中,每个身份包含 8 个 RGB 图像和 8 个红外图像。 主干的输出特征图被平均分成 p6= 条带。 第一个 FC 层将特征的维度降低到 512。 因此,最终描述符的维度为 6×512=3072。 为了平衡两个损失函数,\lambda 设置为 0.5。 采用带动量的SGD进行优化,其中动量设置为0.9。 我们使用衰减学习率计划。 学习率在前 30 个 epoch 中设置为 1x 10-2,在第 30 个 epoch 后衰减到 1x 10-4。

在测试阶段,测试集中的RGB图像用于gallery set,而红外图像用于probe set。采用两种测试模式,第一种模式是全搜索模式,所有的摄像头都在测试阶段使用。第二种模式是室内搜索,使用放置在室内环境中的摄像机来构建gallery set。对于probe set中的每一幅图像,我们计算红外图像与gallery set中的每一幅RGB图像的特征相似度。

结果

实验结果明显优于其他方法

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值