13-Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for VIReID

Diverse Embedding Expansion Network and Low-Light
Cross-Modality Benchmark for Visible-Infrared Person Re-identification

不同嵌入扩展网络和低光交叉模态基准的可见红外人再识别
2023-CVPR CCF-A类
有代码

问题:降低可见(VIS)和红外(IR)图像之间的模态差距。

以往研究方法:
1.特征级方法。
思路: 将 VIS 和 IR 特征投影到一个共同的嵌入空间中,最小化模态差异。出现的问题: 由于模态差异较大,难以将跨模态图像直接投影到公共特征空间中。

2.图像级方法。
思路:通过使用Gans网络生成相反图像来减少模态差异。出现的问题: 缺乏 VIS-IR 图像对,生成的跨模态图像通常伴随着一些噪声。

论文创新:

1.提出用于新的嵌入空间增强网络,多元嵌入扩展网络(DEEN),由多元嵌入扩展(DEE)模块和多阶段特征聚合(MFA)块组成。提出的DEE模块可以生成更多的嵌入,然后使用一种新的中心引导对挖掘(CPM)损失来驱动DEE模块专注于使用不同的特征表示进行学习。然后将其结合到一个端到端的学习框架中,即是DEEN,它可以有效地减少VIS和IR图像之间的模态差异。
2.收集低光交叉模态数据集,称为LLCM数据集。该数据集包含在光照变化和低光照环境下捕获的1064个身份的46,767张图像,包含了更多的低光场景下的身份和图像。有助于VI-REID研究走向实际应用。

网络框架

在这里插入图片描述
DEEN利用双流ResNet-50网络作为主干。
网络的管道包括DEE模块和MFA模块。DEE模块可以使用新的CPM损失生成更多的嵌入,以学习不同的特征表示。MFA块可以聚合来自不同阶段的嵌入,以挖掘不同的通道和空间特征表示。以及中心引导对挖掘(CPM)损失,以使生成的嵌入尽可能多样化,从而学习信息特征表示。
过程:多样性嵌入的网络模型(DEMN),使用双流的 ResNet-50 网络,将 VIS-IR 特征输入到所提出的多元嵌入扩展(DEE)模块中,以生成更多嵌入,之后,使用了中心引导对挖掘(CPM)损失,使生成的嵌入尽可能多样化,以学习信息特征表示

DEE模块(Diverse Embedding Expansion Module)

解决问题:用于生成更多的嵌入,使用多分支卷积生成结构来缓解训练数据不足问题。
在这里插入图片描述
Backbone含义
过程:对于DEE的每个分支,首先使用三个具有不同膨胀比(1,2,3)的3×3膨胀卷积层 φ 1 φ^{1} φ13×3 φ 2 φ^{2} φ23×3 φ 3 φ^{3} φ33×3来将特征图的数量f减少到其自身大小的1/4,然后我们将它们组合成一个特征图来获得特征图,然后是ReLU激活层FReLU,以提高DEE的非线性表示能力。然后,将另一个核大小为1×1的卷积层θ1×1应用于所获得的特征图,以将其维数改变为与f相同。
因此生成分支的嵌入 f i f^{i} fi+的公式为:
在这里插入图片描述

中心引导对挖掘损失(Center-Guided Pair Mining Loss)

作用:有效地获得多样化的嵌入,来减少VIS和IR图像之间的模态差距
方法:
属性1:推开生成的嵌入和原始嵌入之间的距离,以学习不同的特征并挖掘不同的跨模态线索。 f i f^{i} fiv+和fv
属性2:拉近从VIS模态生成的嵌入和原始IR嵌入之间的距离,来减少VIS和IR图像之间的模态差距。 f i f^{i} fiv+和fn
属性3:类内距离小于类间距离。 f j f^{j} fjv f k f^{k} fkv

如图,VIS模态生成的嵌入,公式为:
在这里插入图片描述
在这里插入图片描述解读:D(,)是两个嵌入的欧几里得距离。fv和fn是VIS和IR模态的原始嵌入, f i f^{i} fiv+是指VIS模态的第i个分支生成的嵌入。j,k是minibatch不同的身份,并且[z]+=max(z,0),公式中作用:第一项可以将生成的嵌入 f i f^{i} fiv+拉向原始IR的嵌入fn,以减少 f i , j f^{i,j} fi,jv+ f j f^{j} fjn之间的模态差异。第二项可以将生成的嵌入fv+推离VIS的嵌入fv,以使fv+能够学习信息特征表示。第三项可以使类内距离小于类间距离。然后,使用每个类的嵌入中心cv和cn来使生成的嵌入的中心 c i c^{i} civ+ c i c^{i} cin+更具鉴别性,并引入margin term α来平衡等式中的三个项。
在这里插入图片描述

类似地,对于从IR生成的嵌入的类中心c{i}$n+

在这里插入图片描述

最终CPM损失可以公式化如下:
在这里插入图片描述

此外,为了确保来自不同分支的生成嵌入能够捕获不同的信息特征表示,我们强制不同分支生成的这些不同嵌入正交,以最小化重叠元素。因此,正交损耗可以公式化如下:
在这里插入图片描述
其中m和n分别是从原始嵌入生成的第m个和第n个嵌入。正交损失可以强制生成嵌入以学习更多信息的特征表示。

Multistage Feature Aggregation Block(多阶段特征聚合块)

作用:聚合不同阶段的特征,以挖掘不同的通道和空间特征表示
在这里插入图片描述考虑backbone network两种类型源特征:低级特征图fl R C   l   × H   l   × W   l   R^{C~l~ × H~l~ × W~l~} RC l ×H l ×W l ,高级特征图fh R C   h   × H   h   × W   h   R^{C~h~ × H~h~ × W~h~} RC h ×H h ×W h ,C:通道数量,W:特征宽度,H:特征高度,首先,我们使用三个1×1的卷积层 ψ 1 ψ^{1} ψ1q ψ 1 ψ^{1} ψ1v ψ 1 ψ^{1} ψ1k将f变换为三个紧致嵌入: ψ 1 ψ^{1} ψ1q(fh)、 ψ 1 ψ^{1} ψ1v(fl)、 ψ 1 ψ^{1} ψ1k(fl)。然后,我们通过矩阵乘法和softmax来计算信道相似性矩阵 M c M^{c} Mc R C ′ × C ′ R^{C′×C′} RC×C
在这里插入图片描述
因此,我们通过 ψ 1 ψ^{1} ψ1v(fl)和 M c M^{c} Mc的矩阵乘法恢复信道维度来实现信道级多级特征聚合。然后,应用另一个1×1卷积层 ω c ω^{c} ωc将上述特征图的大小转换为fh的大小。最后,我们通过矩阵加法将fh加到它上得到输出:
在这里插入图片描述
之后,使用从上述操作获得的 f c f^{c} fch和低级特征图fl来执行空间特征聚合操作,这类似于按通道的多级特征聚合操作。最后,我们得到MFA的输出如下:
在这里插入图片描述
其中 ω s ω^{s} ωs ψ 2 ψ^{2} ψ2v是两个1×1的卷积层, M s M^{s} Ms是空间相似性矩阵.

Multi-Loss Optimization(多损耗优化)

除了所提出的Lcpm和Lort之外,我们还将交叉熵损失Lce[17]和三重态损失Ltri[13]结合起来,通过最小化这四个损失Ltotal的总和,以端到端的方式联合优化网络,其公式如下:
在这里插入图片描述
其中λ1和λ2是控制损失项的相对重要性的系数。

自适应权重

def softmax_weights(dist, mask):
    max_v = torch.max(dist * mask, dim=1, keepdim=True)[0]
    #计算度量学习任务中,batch中每个anchor点到所有positive点之间的距离的最大值,并将结果保存在张量 max_v 中。
    diff = dist - max_v
    #将每个anchor点到所有positive点之间的距离dist减去对应的最大距离值 max_v,得到一个差异矩阵 diff。
    Z = torch.sum(torch.exp(diff) * mask, dim=1, keepdim=True) + 1e-6 # avoid division by zero
    #计算度量学习任务中的归一化因子 Z,归一化因子可以用于将距离差异值归一化。
    #torch.exp() 函数对 diff 中的每个元素进行指数运算,以放大距离差异。mask张量是0/1矩阵,判断是否为同一类别
    W = torch.exp(diff) * mask / Z#计算度量学习任务中的权重矩阵 W
    #torch.exp(diff) * mask 将同一类别的点的距离差异保留下来,不同类别的点乘以0 再除以Z归一化因子,来归一化权重值
    return W

实验

1.数据集

  1. LLCM数据集:在复杂的低光环境下拍摄,9个摄像头,包含VIS和IR模式,1月-4月,在光照变化和低光照环境下捕获的1064个身份边界框的46,767张图像。
  2. SYSU-MM01数据集
    4台可见光摄像机和2台红外摄像机捕获的491个身份,包括所有搜索All-Search和室内搜索Indoor-Search模式。All-Search模式,所有VIS摄像机拍摄的所有图像都用作图库集;Indoor-Search模式,只有两台室内VIS相机拍摄的图像用作图库集。
  3. RegDB数据集由412个身份组成,每个身份都有10个VIS图像和10个IR图像,由一对重叠的相机拍摄。
    在这里插入图片描述

2.评估协议
评估协议:将LLCM数据集按2:1的比例划分为训练集和测试集。

  1. 训练集包含30921个713个身份的边界框(16946个边界框来自VIS模态,13975个边界框源自IR模态)
  2. 测试集包含13909个351个身份的边界框(8680个边界框来自VIS模态,7166个边界框源自IR模态)

测试阶段,对于每个相机,我们从每个身份的图像中随机选择一张图像,以形成用于评估模型性能的图库集。我们在随机分割图库集的情况下重复上述评估10次,并报告平均性能。

3.实现细则
首先将所有输入图像的大小调整为3×384×144,并在训练阶段采用随机水平翻转和随机擦除[53]技术。初始学习率设置为1× 1 0 − 2 10^{−2} 102,然后在使用预热策略的10个epoch后增加到1× 1 0 – 1 10^{–1} 10–1。之后,我们在20个epoch时将学习率衰减到1× 1 0 − 2 10^{−2} 102,在60个epoch和120个epoch分别进一步衰减到1× 1 0 − 3 10^{−3} 103和1× 1 0 − 4 10^{−4} 104,直到总共150个epoch。在每个mini-batch中,我们随机选择6个身份的4个VIS图像和4个IR图像进行训练。采用SGD优化器进行训练,其中动量momentum设置为0.9。对于RegDB数据集,我们删除了第4阶段,并在第2阶段之后将所提出的DEE模块插入DEEN。

4.实现
在SYSU-MM01和RegDB数据集上,所提出的DEEN与一些最先进的方法的比较。
在这里插入图片描述
在LLCM数据集通过competing methods表现的性能
在这里插入图片描述

消融实验

表4:DEE MFA每个阶段的影响
在这里插入图片描述
表5:ResNet-50的每个阶段对DEE模块的影响。0-3阶段,DEE嵌入,随着网络层次越深,性能逐渐提高,模态间隙变得更小。在4阶段,DEE嵌入时,CPM损失直接作用于嵌入,扩大了生成的嵌入和原始嵌入的距离,性能下降。所以选择了在主干网络stage-3阶段嵌入DEE。
在这里插入图片描述
表6:研究有多少分支适合DEE。DEE分支数目,2-3时,生成了更多的嵌入来减少模态间隙;分支数目超过3时,DEE产生了太多冗余特征,性能下降。所以选择了三个分支的DEE。
在这里插入图片描述
表7:有无DEE进行比较。Comparison with the Non-Local block.Non-Local block论文呢【31】.
在这里插入图片描述

在LLCM上超参数λ1、λ2和α的影响。采用定量比较的方法。最优值分别为0.8,0.1,0.2.
在这里插入图片描述

可视化

特征分布
在这里插入图片描述
蓝色:类内距离 绿色:类间距离
c-e跨模态特征的类间和类内距离的平均值(即垂直线)被MFA、DEE和DEEN推开,其中δ1<δ2<δ3和δ1<Δ2<δ4<δ5。这表明,与初始特征的类内距离相比,DEEN的类间距离显著减小((a)段)和基线特征((b)段)。因此,DEEN可以有效地减少VIS和IR图像之间的模态差异。
在这里插入图片描述
圆形:可见模态 三角形:红外模态。 相同颜色的样品表示同一个人。
同时,还用t-SNE【27】在图中的2D特征空间中可视化了特征分布。(f-j),这表明MFA、DEE和DEEN可以有效地区分和聚合同一个人的特征嵌入,并减少模态差异。

检索结果
在这里插入图片描述
绿框:匹配的 红框:不匹配的

  • 16
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值