跨模态行人重识别:Towards a Unified Middle Modality Learning forVisible-Infrared Person Re-Identification阅读笔记

目录

摘要

​方法 

结果




论文链接

摘要

        提出了一种非线性中间模态生成器(MMG),它有助于减少模态差异。MMG 可以有效地将 VIS 和 IR 图像投影到统一的中间模态图像 (UMMI) 空间中,以生成中间模态 (M-modality) 图像。生成的 M 模态图像和原始图像被馈送到主干网络以减少模态差异。为了将 UMMI 空间中从 VIS 和 IR 图像生成的两种类型的 M 模态图像拉在一起,提出了一个分布一致性损失 (DCL),以使生成的 M 模态图像的模态分布一致尽可能。最后提出了一个中间模态网络(MMN),以显式方式进一步增强特征的区分度和丰富度。

主要贡献

(1)提出了一种非线性中间模态生成器来生成中间模态图像来辅助 VI-ReID 任务。特别是,所提出的中间模态生成器可以有效地将 VIS 和 IR 图像投影到统一的中间模态图像空间中。

(2) 我们提出了一种有效的分布一致性损失,使从VIS和IR图像中获得的两种中间模态图像在UMMI空间中的模态分布一致,进一步提高了所提出方法的性能。

(3) 大量实验表明,所提出的方法在 SYSUMM01 和 RegDB 数据集上都显着优于其他竞争方法。

方法 

中间模态生成器(MMG),分布一致性损失(DCL

Middle Modality Generator

        在通道级别对齐可见光图像和红外图像。将可见光转换为红外比将红外转换为可见光更容易。分别对这两种模式进行编码,对于VIS模式

         对于IR模式

        通过如上图所示操作,我们获得了可见光和红外图像的特征,并在通道级别执行了可见光图像和红外图像之间的对齐。

Modality Information Decoder

        提出的MID用于将编码为一个通道的数据投影到统一的三通道图像空间。在这个统一的图像空间中,可见光和红外图像之间的距离变得更近,可以减少模态差异。

        MID包括通道级的1×3全连接层,然后是ReLU激活层,以获得三通道中间模态图像. ReLU激活层用于进一步增加非线性关系。通过上述操作,我们可以生成M-模态图像。生成的M-模态图像与VIS图像和IR图像具有相同的标签。最后,将M-模态、VIS和IR模态图像一起送入主干网络

Distribution Consistency Loss (DCL)

         N是图片数量,f()是网络的输出,mean[A-B]是是A和B之差的平均运算,DCL的优化将使两种M-模态特征相似。

损失函数

 

 

结果

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值