Diverse Embedding Expansion Network and Low-Light
Cross-Modality Benchmark for Visible-Infrared Person Re-identification
不同嵌入扩展网络和低光交叉模态基准的可见红外人再识别
2023-CVPR CCF-A类
有代码
问题:降低可见(VIS)和红外(IR)图像之间的模态差距。
以往研究方法:
1.特征级方法。
思路: 将 VIS 和 IR 特征投影到一个共同的嵌入空间中,最小化模态差异。出现的问题: 由于模态差异较大,难以将跨模态图像直接投影到公共特征空间中。
2.图像级方法。
思路:通过使用Gans网络生成相反图像来减少模态差异。出现的问题: 缺乏 VIS-IR 图像对,生成的跨模态图像通常伴随着一些噪声。
论文创新:
1.提出用于新的嵌入空间增强网络,多元嵌入扩展网络(DEEN),由多元嵌入扩展(DEE)模块和多阶段特征聚合(MFA)块组成。提出的DEE模块可以生成更多的嵌入,然后使用一种新的中心引导对挖掘(CPM)损失来驱动DEE模块专注于使用不同的特征表示进行学习。然后将其结合到一个端到端的学习框架中,即是DEEN,它可以有效地减少VIS和IR图像之间的模态差异。
2.收集低光交叉模态数据集,称为LLCM数据集。该数据集包含在光照变化和低光照环境下捕获的1064个身份的46,767张图像,包含了更多的低光场景下的身份和图像。有助于VI-REID研究走向实际应用。
网络框架
DEEN利用双流ResNet-50网络作为主干。
网络的管道包括DEE模块和MFA模块。DEE模块可以使用新的CPM损失生成更多的嵌入,以学习不同的特征表示。MFA块可以聚合来自不同阶段的嵌入,以挖掘不同的通道和空间特征表示。以及中心引导对挖掘(CPM)损失,以使生成的嵌入尽可能多样化,从而学习信息特征表示。
过程:多样性嵌入的网络模型(DEMN),使用双流的 ResNet-50 网络,将 VIS-IR 特征输入到所提出的多元嵌入扩展(DEE)模块中,以生成更多嵌入,之后,使用了中心引导对挖掘(CPM)损失,使生成的嵌入尽可能多样化,以学习信息特征表示
DEE模块(Diverse Embedding Expansion Module)
解决问题:用于生成更多的嵌入,使用多分支卷积生成结构来缓解训练数据不足问题。
Backbone含义
过程:对于DEE的每个分支,首先使用三个具有不同膨胀比(1,2,3)的3×3膨胀卷积层
φ
1
φ^{1}
φ13×3、
φ
2
φ^{2}
φ23×3、
φ
3
φ^{3}
φ33×3来将特征图的数量f减少到其自身大小的1/4,然后我们将它们组合成一个特征图来获得特征图,然后是ReLU激活层FReLU,以提高DEE的非线性表示能力。然后,将另一个核大小为1×1的卷积层θ1×1应用于所获得的特征图,以将其维数改变为与f相同。
因此生成分支的嵌入
f
i
f^{i}
fi+的公式为:
中心引导对挖掘损失(Center-Guided Pair Mining Loss)
作用:有效地获得多样化的嵌入,来减少VIS和IR图像之间的模态差距
方法:
属性1:推开生成的嵌入和原始嵌入之间的距离,以学习不同的特征并挖掘不同的跨模态线索。
f
i
f^{i}
fiv+和fv
属性2:拉近从VIS模态生成的嵌入和原始IR嵌入之间的距离,来减少VIS和IR图像之间的模态差距。
f
i
f^{i}
fiv+和fn
属性3:类内距离小于类间距离。
f
j
f^{j}
fjv和
f
k
f^{k}
fkv
如图,VIS模态生成的嵌入,公式为:
解读:D(,)是两个嵌入的欧几里得距离。fv和fn是VIS和IR模态的原始嵌入,
f
i
f^{i}
fiv+是指VIS模态的第i个分支生成的嵌入。j,k是minibatch不同的身份,并且[z]+=max(z,0),公式中作用:第一项可以将生成的嵌入
f
i
f^{i}
fiv+拉向原始IR的嵌入fn,以减少
f
i
,
j
f^{i,j}
fi,jv+和
f
j
f^{j}
fjn之间的模态差异。第二项可以将生成的嵌入fv+推离VIS的嵌入fv,以使fv+能够学习信息特征表示。第三项可以使类内距离小于类间距离。然后,使用每个类的嵌入中心cv和cn来使生成的嵌入的中心
c
i
c^{i}
civ+和
c
i
c^{i}
cin+更具鉴别性,并引入margin term α来平衡等式中的三个项。
类似地,对于从IR生成的嵌入的类中心c{i}$n+,
最终CPM损失可以公式化如下:
此外,为了确保来自不同分支的生成嵌入能够捕获不同的信息特征表示,我们强制不同分支生成的这些不同嵌入正交,以最小化重叠元素。因此,正交损耗可以公式化如下:
其中m和n分别是从原始嵌入生成的第m个和第n个嵌入。正交损失可以强制生成嵌入以学习更多信息的特征表示。
Multistage Feature Aggregation Block(多阶段特征聚合块)
作用:聚合不同阶段的特征,以挖掘不同的通道和空间特征表示
考虑backbone network两种类型源特征:低级特征图fl∈
R
C
l
×
H
l
×
W
l
R^{C~l~ × H~l~ × W~l~}
RC l ×H l ×W l ,高级特征图fh∈
R
C
h
×
H
h
×
W
h
R^{C~h~ × H~h~ × W~h~}
RC h ×H h ×W h ,C:通道数量,W:特征宽度,H:特征高度,首先,我们使用三个1×1的卷积层
ψ
1
ψ^{1}
ψ1q、
ψ
1
ψ^{1}
ψ1v、
ψ
1
ψ^{1}
ψ1k将f变换为三个紧致嵌入:
ψ
1
ψ^{1}
ψ1q(fh)、
ψ
1
ψ^{1}
ψ1v(fl)、
ψ
1
ψ^{1}
ψ1k(fl)。然后,我们通过矩阵乘法和softmax来计算信道相似性矩阵
M
c
M^{c}
Mc∈
R
C
′
×
C
′
R^{C′×C′}
RC′×C′:
因此,我们通过
ψ
1
ψ^{1}
ψ1v(fl)和
M
c
M^{c}
Mc的矩阵乘法恢复信道维度来实现信道级多级特征聚合。然后,应用另一个1×1卷积层
ω
c
ω^{c}
ωc将上述特征图的大小转换为fh的大小。最后,我们通过矩阵加法将fh加到它上得到输出:
之后,使用从上述操作获得的
f
c
f^{c}
fch和低级特征图fl来执行空间特征聚合操作,这类似于按通道的多级特征聚合操作。最后,我们得到MFA的输出如下:
其中
ω
s
ω^{s}
ωs和
ψ
2
ψ^{2}
ψ2v是两个1×1的卷积层,
M
s
M^{s}
Ms是空间相似性矩阵.
Multi-Loss Optimization(多损耗优化)
除了所提出的Lcpm和Lort之外,我们还将交叉熵损失Lce[17]和三重态损失Ltri[13]结合起来,通过最小化这四个损失Ltotal的总和,以端到端的方式联合优化网络,其公式如下:
其中λ1和λ2是控制损失项的相对重要性的系数。
自适应权重
def softmax_weights(dist, mask):
max_v = torch.max(dist * mask, dim=1, keepdim=True)[0]
#计算度量学习任务中,batch中每个anchor点到所有positive点之间的距离的最大值,并将结果保存在张量 max_v 中。
diff = dist - max_v
#将每个anchor点到所有positive点之间的距离dist减去对应的最大距离值 max_v,得到一个差异矩阵 diff。
Z = torch.sum(torch.exp(diff) * mask, dim=1, keepdim=True) + 1e-6 # avoid division by zero
#计算度量学习任务中的归一化因子 Z,归一化因子可以用于将距离差异值归一化。
#torch.exp() 函数对 diff 中的每个元素进行指数运算,以放大距离差异。mask张量是0/1矩阵,判断是否为同一类别
W = torch.exp(diff) * mask / Z#计算度量学习任务中的权重矩阵 W
#torch.exp(diff) * mask 将同一类别的点的距离差异保留下来,不同类别的点乘以0 再除以Z归一化因子,来归一化权重值
return W
实验
1.数据集
- LLCM数据集:在复杂的低光环境下拍摄,9个摄像头,包含VIS和IR模式,1月-4月,在光照变化和低光照环境下捕获的1064个身份边界框的46,767张图像。
- SYSU-MM01数据集
4台可见光摄像机和2台红外摄像机捕获的491个身份,包括所有搜索All-Search和室内搜索Indoor-Search模式。All-Search模式,所有VIS摄像机拍摄的所有图像都用作图库集;Indoor-Search模式,只有两台室内VIS相机拍摄的图像用作图库集。 - RegDB数据集由412个身份组成,每个身份都有10个VIS图像和10个IR图像,由一对重叠的相机拍摄。
2.评估协议
评估协议:将LLCM数据集按2:1的比例划分为训练集和测试集。
- 训练集包含30921个713个身份的边界框(16946个边界框来自VIS模态,13975个边界框源自IR模态)
- 测试集包含13909个351个身份的边界框(8680个边界框来自VIS模态,7166个边界框源自IR模态)
测试阶段,对于每个相机,我们从每个身份的图像中随机选择一张图像,以形成用于评估模型性能的图库集。我们在随机分割图库集的情况下重复上述评估10次,并报告平均性能。
3.实现细则
首先将所有输入图像的大小调整为3×384×144,并在训练阶段采用随机水平翻转和随机擦除[53]技术。初始学习率设置为1×
1
0
−
2
10^{−2}
10−2,然后在使用预热策略的10个epoch后增加到1×
1
0
–
1
10^{–1}
10–1。之后,我们在20个epoch时将学习率衰减到1×
1
0
−
2
10^{−2}
10−2,在60个epoch和120个epoch分别进一步衰减到1×
1
0
−
3
10^{−3}
10−3和1×
1
0
−
4
10^{−4}
10−4,直到总共150个epoch。在每个mini-batch中,我们随机选择6个身份的4个VIS图像和4个IR图像进行训练。采用SGD优化器进行训练,其中动量momentum设置为0.9。对于RegDB数据集,我们删除了第4阶段,并在第2阶段之后将所提出的DEE模块插入DEEN。
4.实现
在SYSU-MM01和RegDB数据集上,所提出的DEEN与一些最先进的方法的比较。
在LLCM数据集通过competing methods表现的性能
消融实验
表4:DEE MFA每个阶段的影响
表5:ResNet-50的每个阶段对DEE模块的影响。0-3阶段,DEE嵌入,随着网络层次越深,性能逐渐提高,模态间隙变得更小。在4阶段,DEE嵌入时,CPM损失直接作用于嵌入,扩大了生成的嵌入和原始嵌入的距离,性能下降。所以选择了在主干网络stage-3阶段嵌入DEE。
表6:研究有多少分支适合DEE。DEE分支数目,2-3时,生成了更多的嵌入来减少模态间隙;分支数目超过3时,DEE产生了太多冗余特征,性能下降。所以选择了三个分支的DEE。
表7:有无DEE进行比较。Comparison with the Non-Local block.Non-Local block论文呢【31】.
在LLCM上超参数λ1、λ2和α的影响。采用定量比较的方法。最优值分别为0.8,0.1,0.2.
可视化
特征分布
蓝色:类内距离 绿色:类间距离
c-e跨模态特征的类间和类内距离的平均值(即垂直线)被MFA、DEE和DEEN推开,其中δ1<δ2<δ3和δ1<Δ2<δ4<δ5。这表明,与初始特征的类内距离相比,DEEN的类间距离显著减小((a)段)和基线特征((b)段)。因此,DEEN可以有效地减少VIS和IR图像之间的模态差异。
圆形:可见模态 三角形:红外模态。 相同颜色的样品表示同一个人。
同时,还用t-SNE【27】在图中的2D特征空间中可视化了特征分布。(f-j),这表明MFA、DEE和DEEN可以有效地区分和聚合同一个人的特征嵌入,并减少模态差异。
检索结果
绿框:匹配的 红框:不匹配的