13-Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for VIReID

Gkotta.

已于 2024-03-02 16:55:53 修改

阅读量1.7k

点赞数 17

文章标签： embedding 机器学习

于 2023-11-10 21:45:21 首次发布

本文链接：https://blog.csdn.net/weixin_43828366/article/details/134340178

版权

本文提出了一种新型的可见红外人再识别方法DEEN，通过多元嵌入扩展模块和多阶段特征聚合，有效缩小了模态差距。DEEN在LLCM数据集上展示了卓越性能，通过实验证明了其在复杂低光环境下的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Diverse Embedding Expansion Network and Low-Light
Cross-Modality Benchmark for Visible-Infrared Person Re-identification

不同嵌入扩展网络和低光交叉模态基准的可见红外人再识别
2023-CVPR CCF-A类
有代码

问题：降低可见(VIS)和红外(IR)图像之间的模态差距。

以往研究方法：
1.特征级方法。
思路：将 VIS 和 IR 特征投影到一个共同的嵌入空间中，最小化模态差异。出现的问题：由于模态差异较大，难以将跨模态图像直接投影到公共特征空间中。

2.图像级方法。
思路：通过使用Gans网络生成相反图像来减少模态差异。出现的问题：缺乏 VIS-IR 图像对，生成的跨模态图像通常伴随着一些噪声。

论文创新：

1.提出用于新的嵌入空间增强网络，多元嵌入扩展网络(DEEN)，由多元嵌入扩展(DEE)模块和多阶段特征聚合(MFA)块组成。提出的DEE模块可以生成更多的嵌入，然后使用一种新的中心引导对挖掘(CPM)损失来驱动DEE模块专注于使用不同的特征表示进行学习。然后将其结合到一个端到端的学习框架中，即是DEEN，它可以有效地减少VIS和IR图像之间的模态差异。
2.收集低光交叉模态数据集，称为LLCM数据集。该数据集包含在光照变化和低光照环境下捕获的1064个身份的46,767张图像，包含了更多的低光场景下的身份和图像。有助于VI-REID研究走向实际应用。

网络框架

在这里插入图片描述
DEEN利用双流ResNet-50网络作为主干。
网络的管道包括DEE模块和MFA模块。DEE模块可以使用新的CPM损失生成更多的嵌入，以学习不同的特征表示。MFA块可以聚合来自不同阶段的嵌入，以挖掘不同的通道和空间特征表示。以及中心引导对挖掘（CPM）损失，以使生成的嵌入尽可能多样化，从而学习信息特征表示。
过程：多样性嵌入的网络模型（DEMN），使用双流的 ResNet-50 网络，将 VIS-IR 特征输入到所提出的多元嵌入扩展(DEE)模块中，以生成更多嵌入，之后，使用了中心引导对挖掘(CPM)损失，使生成的嵌入尽可能多样化，以学习信息特征表示

DEE模块(Diverse Embedding Expansion Module)

解决问题：用于生成更多的嵌入，使用多分支卷积生成结构来缓解训练数据不足问题。
在这里插入图片描述
Backbone含义
过程：对于DEE的每个分支，首先使用三个具有不同膨胀比(1，2，3)的3×3膨胀卷积层 $φ^{1}$ _3×3、 $φ^{2}$ _3×3、 $φ^{3}$ _3×3来将特征图的数量f减少到其自身大小的1/4，然后我们将它们组合成一个特征图来获得特征图，然后是ReLU激活层F_ReLU，以提高DEE的非线性表示能力。然后，将另一个核大小为1×1的卷积层θ_1×1应用于所获得的特征图，以将其维数改变为与f相同。
因此生成分支的嵌入 $f^{i}$ ₊的公式为：
在这里插入图片描述

中心引导对挖掘损失(Center-Guided Pair Mining Loss)

作用：有效地获得多样化的嵌入，来减少VIS和IR图像之间的模态差距
方法：
属性1：推开生成的嵌入和原始嵌入之间的距离，以学习不同的特征并挖掘不同的跨模态线索。 $f^{i}$ _v+和f_v
属性2：拉近从VIS模态生成的嵌入和原始IR嵌入之间的距离，来减少VIS和IR图像之间的模态差距。 $f^{i}$ _v+和f_n
属性3：类内距离小于类间距离。 $f^{j}$ _v和 $f^{k}$ _v

如图，VIS模态生成的嵌入，公式为：
在这里插入图片描述
解读：D(,)是两个嵌入的欧几里得距离。f_v和f_n是VIS和IR模态的原始嵌入， $f^{i}$ _v+是指VIS模态的第i个分支生成的嵌入。j,k是minibatch不同的身份，并且[z]₊=max(z,0),公式中作用：第一项可以将生成的嵌入 $f^{i}$ _v+拉向原始IR的嵌入f_n，以减少 $f^{i,j}$ _v+和 $f^{j}$ _n之间的模态差异。第二项可以将生成的嵌入f_v+推离VIS的嵌入f_v，以使f_v+能够学习信息特征表示。第三项可以使类内距离小于类间距离。然后，使用每个类的嵌入中心c_v和c_n来使生成的嵌入的中心 $c^{i}$ _v+和 $c^{i}$ _n+更具鉴别性，并引入margin term α来平衡等式中的三个项。
在这里插入图片描述

类似地，对于从IR生成的嵌入的类中心c{i}$_n+，

在这里插入图片描述

最终CPM损失可以公式化如下：
在这里插入图片描述

此外，为了确保来自不同分支的生成嵌入能够捕获不同的信息特征表示，我们强制不同分支生成的这些不同嵌入正交，以最小化重叠元素。因此，正交损耗可以公式化如下：
在这里插入图片描述
其中m和n分别是从原始嵌入生成的第m个和第n个嵌入。正交损失可以强制生成嵌入以学习更多信息的特征表示。

Multistage Feature Aggregation Block(多阶段特征聚合块)

作用：聚合不同阶段的特征，以挖掘不同的通道和空间特征表示
在这里插入图片描述考虑backbone network两种类型源特征：低级特征图f_l∈ $R^{C~l~ × H~l~ × W~l~}$ ，高级特征图f_h∈ $R^{C~h~ × H~h~ × W~h~}$ ,C:通道数量，W:特征宽度，H:特征高度，首先，我们使用三个1×1的卷积层 $ψ^{1}$ _q、 $ψ^{1}$ _v、 $ψ^{1}$ _k将f变换为三个紧致嵌入： $ψ^{1}$ _q(f_h)、 $ψ^{1}$ _v(f_l)、 $ψ^{1}$ _k(f_l)。然后，我们通过矩阵乘法和softmax来计算信道相似性矩阵 $M^{c}$ ∈ $R^{C′×C′}$ ：
在这里插入图片描述
因此，我们通过 $ψ^{1}$ _v(f_l)和 $M^{c}$ 的矩阵乘法恢复信道维度来实现信道级多级特征聚合。然后，应用另一个1×1卷积层 $ω^{c}$ 将上述特征图的大小转换为f_h的大小。最后，我们通过矩阵加法将f_h加到它上得到输出：
在这里插入图片描述
之后，使用从上述操作获得的 $f^{c}$ _h和低级特征图f_l来执行空间特征聚合操作，这类似于按通道的多级特征聚合操作。最后，我们得到MFA的输出如下:

其中 $ω^{s}$ 和 $ψ^{2}$ _v是两个1×1的卷积层， $M^{s}$ 是空间相似性矩阵.

Multi-Loss Optimization(多损耗优化)

除了所提出的L_cpm和L_ort之外，我们还将交叉熵损失L_ce[17]和三重态损失L_tri[13]结合起来，通过最小化这四个损失L_total的总和，以端到端的方式联合优化网络，其公式如下：
在这里插入图片描述
其中λ₁和λ₂是控制损失项的相对重要性的系数。

自适应权重

def softmax_weights(dist, mask):
    max_v = torch.max(dist * mask, dim=1, keepdim=True)[0]
    #计算度量学习任务中，batch中每个anchor点到所有positive点之间的距离的最大值，并将结果保存在张量 max_v 中。
    diff = dist - max_v
    #将每个anchor点到所有positive点之间的距离dist减去对应的最大距离值 max_v，得到一个差异矩阵 diff。
    Z = torch.sum(torch.exp(diff) * mask, dim=1, keepdim=True) + 1e-6 # avoid division by zero
    #计算度量学习任务中的归一化因子 Z，归一化因子可以用于将距离差异值归一化。
    #torch.exp() 函数对 diff 中的每个元素进行指数运算，以放大距离差异。mask张量是0/1矩阵,判断是否为同一类别
    W = torch.exp(diff) * mask / Z#计算度量学习任务中的权重矩阵 W
    #torch.exp(diff) * mask 将同一类别的点的距离差异保留下来，不同类别的点乘以0 再除以Z归一化因子，来归一化权重值
    return W

实验

1.数据集

LLCM数据集：在复杂的低光环境下拍摄，9个摄像头，包含VIS和IR模式，1月-4月，在光照变化和低光照环境下捕获的1064个身份边界框的46,767张图像。
SYSU-MM01数据集
4台可见光摄像机和2台红外摄像机捕获的491个身份，包括所有搜索All-Search和室内搜索Indoor-Search模式。All-Search模式，所有VIS摄像机拍摄的所有图像都用作图库集；Indoor-Search模式，只有两台室内VIS相机拍摄的图像用作图库集。
RegDB数据集由412个身份组成，每个身份都有10个VIS图像和10个IR图像，由一对重叠的相机拍摄。

2.评估协议
评估协议：将LLCM数据集按2:1的比例划分为训练集和测试集。

训练集包含30921个713个身份的边界框（16946个边界框来自VIS模态，13975个边界框源自IR模态）
测试集包含13909个351个身份的边界框（8680个边界框来自VIS模态，7166个边界框源自IR模态）

测试阶段，对于每个相机，我们从每个身份的图像中随机选择一张图像，以形成用于评估模型性能的图库集。我们在随机分割图库集的情况下重复上述评估10次，并报告平均性能。

3.实现细则
首先将所有输入图像的大小调整为3×384×144，并在训练阶段采用随机水平翻转和随机擦除[53]技术。初始学习率设置为1× $10^{−2}$ ，然后在使用预热策略的10个epoch后增加到1× $10^{–1}$ 。之后，我们在20个epoch时将学习率衰减到1× $10^{−2}$ ，在60个epoch和120个epoch分别进一步衰减到1× $10^{−3}$ 和1× $10^{−4}$ ，直到总共150个epoch。在每个mini-batch中，我们随机选择6个身份的4个VIS图像和4个IR图像进行训练。采用SGD优化器进行训练，其中动量 momentum设置为0.9。对于RegDB数据集，我们删除了第4阶段，并在第2阶段之后将所提出的DEE模块插入DEEN。

4.实现
在SYSU-MM01和RegDB数据集上，所提出的DEEN与一些最先进的方法的比较。
在这里插入图片描述
在LLCM数据集通过competing methods表现的性能

消融实验

表4：DEE MFA每个阶段的影响
在这里插入图片描述
表5：ResNet-50的每个阶段对DEE模块的影响。0-3阶段，DEE嵌入，随着网络层次越深，性能逐渐提高，模态间隙变得更小。在4阶段，DEE嵌入时，CPM损失直接作用于嵌入，扩大了生成的嵌入和原始嵌入的距离，性能下降。所以选择了在主干网络stage-3阶段嵌入DEE。
在这里插入图片描述
表6：研究有多少分支适合DEE。DEE分支数目，2-3时，生成了更多的嵌入来减少模态间隙；分支数目超过3时，DEE产生了太多冗余特征，性能下降。所以选择了三个分支的DEE。

表7：有无DEE进行比较。Comparison with the Non-Local block.Non-Local block论文呢【31】.
在这里插入图片描述

在LLCM上超参数λ1、λ2和α的影响。采用定量比较的方法。最优值分别为0.8，0.1，0.2.
在这里插入图片描述

可视化

特征分布
在这里插入图片描述
蓝色：类内距离绿色：类间距离
c-e跨模态特征的类间和类内距离的平均值（即垂直线）被MFA、DEE和DEEN推开，其中δ1<δ2<δ3和δ1<Δ2<δ4<δ5。这表明，与初始特征的类内距离相比，DEEN的类间距离显著减小（（a）段）和基线特征（（b）段）。因此，DEEN可以有效地减少VIS和IR图像之间的模态差异。
在这里插入图片描述
圆形：可见模态三角形：红外模态。相同颜色的样品表示同一个人。
同时，还用t-SNE【27】在图中的2D特征空间中可视化了特征分布。（f-j），这表明MFA、DEE和DEEN可以有效地区分和聚合同一个人的特征嵌入，并减少模态差异。