跨模态行人重识别:Visible-Infrared Person Re-identification using Cross-Modal Correspondences学习记录笔记

简述

        现成的对象检测器裁剪的人物图像不一定是对齐的,这会分散有辨别力的人物表示学习。一种新颖的特征学习框架,以统一的方式解决这些问题。利用跨模态人物图像之间的密集对应关系,解决像素级的跨模态差异,更有效地抑制人物表示中与模态相关的特征,也鼓励了跨模态局部特征之间的像素关联。RGB 和 IR 图像的未对齐特征对处理跨模态差异有不利影响,会分散学习人员的表示。

方法

        励鼓励RGB 图像的人物表征从具有相同身份的 IR 图像中重建那些表征。通过以概率方式在 RGB 和 IR 人物图像之间建立密集的跨模态对应关系来实现这一点。密集交叉对应将RGB和IR图像的像素级人物表示明确地对齐,这有利于Vi-Reid的人物表示学习,主要有两个原因。 首先,通过强制RGB和IR图像中语义相似的区域被嵌入到附近,鼓励网络从不对齐的RGB和IR图像中提取与输入模态不变的特征。 其次,通过鼓励局部关联,强制网络集中于提取具有鉴别性的像素级局部特征,这进一步促进了人表征的学习。

方法

 

        使用双流 CNN 提取 RGB 和 IR 特征,分别用 fRGB 和 fIR 表示。 CMAlign 模块计算跨模态特征的相似性和这些特征之间的匹配概率,并使用soft warping 将跨模态特征相互对齐,并使用无参数的掩膜来减轻背景区域之间的模糊匹配。

        从相应的人物图像中提取 RGB 和 IR 特征,然后将特征与 CMAlign 模块对齐。它在 RGB 和 IR 特征之间建立密集的跨模态对应关系,并使用相应的匹配概率将这些特征相互扭曲。

CMAlign

CMAlign 模块双向对齐 RGB 和 IR 特征,即从 RGB 到 IR 以及从 IR 到 RGB,以概率方式使用密集的跨模态对应。

计算 RGB 和 IR 特征之间的余弦相似度

计算 RGB 到 IR 的匹配概率

 通过将 argmax 算子应用于每个 RGB 特征的匹配概率,即 argmaxq P(p, q),明确地建立从 RGB 到 IR 图像的密集对应关系。这为语义相似的区域提供了可靠的跨模态对应

修改

^fRGB ∈ Rh×w×d 和 MRGB ∈ Rh×w 表示通过 IR-to-RGB 对齐和人掩膜重建的 RGB 特征。 用 W 表示一个软扭曲算子,它使用匹配概率聚合特征,定义如下:

人物掩码确保人物区域的特征 ^fRGB 是通过以概率方式聚合 IR 特征来重建的,而其他人则来自原始 RGB 特征 fRGB。 

loss

ID loss

ID consistency loss (LIC)

 将 ID 一致性损失定义为使用图像级表示的交叉熵,类似于 ID 损失中的分类项。相反,我们利用重建的特征 φ(^fRGB) 和 φ(^fIR)。请注意,我们使用与 ID 损失中相同的分类器。 ID 一致性损失强制来自具有相同身份但具有不同模态的人物图像的 ID 预测保持一致,从而允许抑制人物表示中与模态相关的特征。

 Dense triplet loss (LDT)

 ID 损失有助于学习有区别的人表示,ID 一致性项显式地缓解了跨模态差异。密集三重态损耗。 它利用不同模态的特征对原始特征和重建特征进行局部比较,鼓励最终图像级的人物表征具有区分性,同时缓解像素级的跨模态差异

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值