跨模态行人重识别：CM-NAS: Cross-Modality Neural Architecture Searchfor Visible-Infrared Person Re-Iden学习记录笔记

深度学不会习

已于 2022-06-30 18:30:07 修改

阅读量823

点赞数

文章标签：深度学习 python pytorch

于 2022-06-30 11:05:28 首次发布

本文链接：https://blog.csdn.net/weixin_43898295/article/details/125535172

版权

摘要

方法

试验

论文链接：CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identiﬁcation

摘要

系统地研究了手动设计的架构，并确定适当地分离批标准化 (BN) 层是极大推动跨模态匹配的关键。基于这一观察，基本目标是为每个 BN 层找到最佳分离方案。提出了一种新方法，称为跨模态神经架构搜索（CMNAS）。它由一个面向 BN 的搜索空间组成，其中标准优化可以通过跨模态任务来完成。

讨论：

（1）仅在块中分离BN层优于分离整个块； (2) 分离两个BN层块通常优于分离单个BN层。考虑到这些我们得出一个结论，适当分离所有 BN 层是极大推动跨模态匹配的关键。

Neural Architecture Search

现有的 NAS 工作可以分为微搜索方法和宏搜索方法。微搜索方法旨在设计稳健的单元，然后将这些单元堆叠起来以构成神经架构。传统方法主要依靠进化算法或强化学习来解决离散搜索问题。最近，DARTS 首次提出了一种可微搜索策略，与传统方法相比，大大降低了计算开销。宏搜索方法搜索整个神经架构，这被认为比搜索单元更灵活。然而，这些方法都是为单模态任务设计的，不需要考虑模态差异。

方法

在具有挑战性的单次全搜索设置下，SYSU-MM01 上基于 ResNet50 的不同架构设计的比较 [42]。 's21' 表示 ResNet50 的 stage2 中的第一个块，其架构如图 2 所示。我们以整个块（蓝线）或仅块中的 BN 层（红线）为单位设计架构）。 (a) 显示了仅分离一个块的结果。 (b)-(f) 展示了分离两个块的结果，我们首先固定分离一个块，然后遍历剩余的阶段以分离另一个块。请注意，对于 (c)，我们选择在 stage2 中首先固定分离块“s23”而不是“s21”或“s22”，因为“s23”在 (a) 中的性能优于其他块。 (d)-(f) 也是同理。很明显，分离 BN 层明显优于分离整个块，这促使我们探索更多的 BN 分离方案。

分离块中的所有层和单独分离块中的BN层。具体来说，我们将 ResNet50 中的块一一分离以学习特定于模态的表示，并共享剩余的块以学习模态可共享的表示。图 1 (a) 描绘了所有潜在架构的结果以及一个基线的结果：共享整个架构而不分离。我们从图 1 (a) 中得到三个观察结果： (1) 基线通常比分离一个块的性能更差，这表明分离块以学习特定模态表示的必要性； (2) 分离不同的块会产生非常不同的性能。例如，在分离整个块时，“s41”和“s51”分别导致最好和最差的结果。这意味着我们需要在设计过程中仔细对待每一层； (3) 分离块中的BN层比分离整个块更合适，因为在所有分离方案中，前者（红线）比后者（蓝线）获得更好的结果。

CM-NAS

由于手动遍历所有潜在架构是很困难的，我们开发了一种新颖的 CM-NAS 来自动找到最佳架构。

鉴于以上分析，我们的架构设计围绕着哪些BN层应该分离，哪些BN层应该共享。考虑到这一点，我们设计了一个面向 BN 的搜索空间，如图所示。在我们的搜索空间中，主干网中的所有 BN 层都被重塑为可搜索单元，每个 BN 层都有两个候选操作：采用单独的或共享参数。如果 BN 层选择前者，则该 BN 层将有两个独立的参数，分别从 VIS 和 IR 数据中学习。否则，这个 BN 层将共享从两种数据模式中学习到的参数。

令 o1 和 o2 分别表示上述两个候选操作。在每个 BN 层 l 中，我们将架构参数 α1o1 分配给操作 o1，将另一个架构参数 α1o2 分配给剩余的操作o2。当 αlo1 = 1 且 αlo2 = 0 时，表示 BN 层 l 使用单独的参数。否则，当 αlo1 = 0 且 αlo2 = 1 时，BN 层 l 共享其参数。在实践中，我们不是在这种离散的候选架构上进行搜索，而是放松搜索空间，使其可以通过梯度下降 [25] 进行优化。具体来说，我们将二元架构参数 αl oi (i ∈ {1, 2}) 放宽为连续的，然后通过计算所有架构参数的 softmax 来获得选择相应操作的概率：

ploi 的值越大，BN 层 l 选择操作 oi 的可能性就越大。 BN 层 l 的输出是所有可能操作的加权和：

其中 oi(xl) 表示操作 oi 应用于输入 xl。在这种情况下，搜索过程转化为学习一组架构参数 α = {αl oi}。此外，由于还需要学习网络权重 w，例如卷积层的权重，需要解决以下双层优化问题：

搜索最小化验证损失 Lval(w*, α*) 的架构参数 α*，其中网络权重 w* 是通过最小化训练损失 Ltrain(w, α) 获得的。训练后，对于每个 BN 层 l，我们选择概率较大的操作并放弃另一个操作，从而产生离散架构。例如，当 plo1 > plo2 时，我们将选择操作 o1，即在 BN 层 l 中使用两个单独的参数。此外，很明显，训练和验证损失在搜索过程中起着至关重要的作用。

Objective Function

CM-NAS 的剩余部分是设计一个合适的目标函数来更好地指导跨模态搜索过程。首先，特定类别的最大平均差异 (CMMD)是模态差异的常用度量：

其中 fc,vis 和 fc,ir 分别表示属于第 c 类的 VIS 和 IR 图像的特征。 mc 和 nc 是对应特征的编号。 ψ(·) 是将特征映射到通用再生核希尔伯特空间 (RKHS) [32] 的函数

让 Fvis 和 Fir 分别为 VIS 和 IR 数据的嵌入特征集：

在实践中，我们每次采样 n VIS 和 n IR 图像，因为约束相关一致性需要相同数量的数据 [36]。同时，fvis i 和 fir i (i ∈ {1, ..., n}) 属于同一恒等式。反映特征之间成对相似性的相关矩阵 Gvis 和 Gir 由下式给出：

对两个相关矩阵应用逐行 L2 归一化：

其中符号 [i, :] 表示矩阵中的第 i 行。进一步开发了相关一致性损失 LCC 以惩罚 Gvis 和 Gir 之间的差异

试验

深度学不会习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
跨模态行人重识别：CM-NAS: Cross-Modality Neural Architecture Searchfor Visible-Infrared Person Re-Iden学习记录笔记

目录摘要方法试验系统地研究了手动设计的架构，并确定适当地分离批标准化 (BN) 层是极大推动跨模态匹配的关键。基于这一观察，基本目标是为每个 BN 层找到最佳分离方案。提出了一种新方法，称为跨模态神经架构搜索（CMNAS）。它由一个面向 BN 的搜索空间组成，其中标准优化可以通过跨模态任务来完成。讨论：（1）仅在块中分离BN层优于分离整个块； (2) 分离两个BN层块通常优于分离单个BN层。考虑到这些我们得出一个结论，适当分离所有 BN 层是极大推动跨模态匹配的关键。Ne
复制链接

扫一扫