目录
原文链接:Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking
摘要
1) 直接从数据中进行端到端特征学习,无需额外的度量学习步骤,学习不变的共享特征,同时保持VT-REID的高可分辨性。
2) 引入了一种新的双向双约束顶级损失,它同时处理跨模态和模态内变化,以确保学习表示的可辨别性,可以将不同的人从两种异质模式中区分开来。
介绍
双路径网络来学习VT-REID的特征表示,其中包含RGB路径和IR路径。具体来说,浅层的参数独立于提取特定于模态的信息,从而解决了由不同传感器光谱引起的跨模态差异问题。然后,进一步利用共享的全连接层来学习嵌入空间。 由不同的人类姿势和观点引起的较大的模态内变化,因此,大量的类内距离可能甚至大于类间距离.
创新
提出novel bi-directional dual-constrained top-ranking loss(新型双向双约束顶级损失),跨模态顶级约束,旨在解决较大的跨模态变化。主要思想是锚点到其最远的跨模态正例的距离应该比锚点到其最近的跨模态负例的距离小一个预定义的边距。此外,采用双向训练策略(visible to thermal and thermal to visible)来增强鲁棒性。
方法
网络结构
针对VT-REID提出了双路径端到端学习框架。N代表批量大小,而总共2*N个图像被送入网络进行训练。它由两个主要部分组成:用于特征提取的双路径网络(一条用于RGB图像,另一条用于IR图像)和用于特征学习的双向双约束顶级损失。注意,浅层(特征提取器)的权重不同,用于提取特定于模态的信息,而嵌入FC层(特征嵌入)的权重共享用于多模态共享特征学习。在L2规范化之后,我们引入了一种双向双约束的顶级损失来进行网络训练。同时,将身份损失与排名损失进一步整合,以提高性能。
特征提取时, 由于训练数据有限,采用在 ImageNet 上预训练的通用图像分类网络进行初始化,以提高训练过程以实现快速收敛。
特征嵌入,将嵌入函数与特征提取器一起表示为可见图像的 Fv(·),而热图像的 Ft(·)。给定可见图像 Iv 和热图像 It。
双重约束顶级损失
排名损失
进一步采用双向排名损失策略来约束跨模态人重新识别问题的整体学习,双向排名损失包含两种关系: visible to thermal triplet(一个锚定RGB图像,两个IR图像) 和thermal to visible triplet
(一个锚定IR图像,两个RGB图像)。
跨模态约束
(1)top-ranking 约束保证了最近的跨模态负样本离最远的跨模态正样本很远,从而有助于减少跨模态变化 同时保持高辨别力。 (2) 双向训练策略确保学习到的特征表示是模态不变的。 它提高了不同查询设置( visible to thermal and thermal to visible)的鲁棒性。
模态内约束
该模态内顶级排名约束确保了最难的交叉模态负样本也应远离其相应的交叉模态正样本。它保证了每个模态中不同人的图像也应通过额外的约束加以区分。
整体损失
Batch样本
引入小型批量抽样策略至关重要,在每次迭代中首先随机选择N个人身份,其中N是批量大小。然后,我们从两种不同的模式中随机选择一个所选身份的RGB图像和一个IR图像来构建迷你批次,其中总共2 * N个图像被馈送到网络中进行训练。以这种方式,在迷你批次内,我们可以选择N个锚定RGB图像来计算visible-thermal top-ranking loss,,以及N个对应的锚定IR图像来计算thermal-visible top-ranking loss。
实验
数据集
RegDB dataset and SYSU-MM01
实验设置
对于两个数据集,嵌入全连接层的大小设置为 1024,批量大小设置为 64。图像首先调整为 256 × 256,然后将随机裁剪的 227 × 227 图像输入网络。 参数设置为 λ1 = 0.1 和 λ2 = 1。动量设置为 0.9。 预定义的跨模态边界 ρ1 设置为 0.5,而模内边界 ρ2 设置为 0.1。 初始学习率设置为 0.001。 RegDB 数据集的训练步长为 5000,SYSU-MM01 数据集为 50000。
BDTR 在 RegDB 数据集上将 rank-1 从 27.81% 提高到 33.47%,mAP 从 27.65% 提高到 31.83%。
IDloss的有效性
可以通过将特定于身份的信息(身份损失)聚合到排名损失来提高性能。排序损失在小型 RegDB 数据集上的表现要好得多,而身份损失可以通过 SYSU-MM01 数据集上的大量训练样本获得更好的性能。
结果
在 RegDB 数据集上实现了 rank-1 = 33.47% 和 mAP = 31.83%,在 SYSU-MM01 数据集上实现了 rank1 = 17.01% 和 mAP = 19.66%。