现有的VI-ReID方法主要集中在两个方面:
1.通过最大化模态不变性来解决跨模态问题(提取模态不变性特征,但模态不变性往往难以保证特征的质量,这导致了人物图像表示中的间接信息丢失)
2.最小化跨模态特征的不相似性[8],[10],[11],[38]。(基于gan的方法由于训练过程的计算复杂度和不可避免的噪声引入,导致身份识别的准确性可能不够令人满意)
生成中间或目标图像,将跨模态匹配问题转化为模态内匹配任务,提高检索精度[16],[39]。
将现有的方法分为两类:
(1)图像级方法,基于生成对抗网络(GAN)生成中间模态或新模态图像:
cmGAN[15]、D2RL[18]、HiCMD[19]、JSIA-ReID[20]、AlignGAN[17]、TS-GAN[21]、DG-V AE[59]、GECNet[22]、FMCNet[25]、TSME[23]。有些方法引入中间模态来消除交叉模态差异,包括x -模态[86]、MID[87]。
缺点:容易受到颜色不一致或图像细节丢失的问题
(2)特征级方法,首先提取VIS和IR图像的特征,然后将这些特征映射到公共特征空间中:
BDTR[51]、AGW[3]、CMAlign[75]、SIM[76]、NFS[77]、CIMA[79]、MSO[13]、cm-SSFT[37]、CM-NAS[80]、MCLNet[82]、SMCL[81]、DDAG[41]、MPANet[42]、DMiR[49]、DML[78]、HA T[74]、SPOT[14]、MAUM[85]、CMT[84]、DCLNet[83]。
缺点:忽略特征的高阶结构信息,公共特征空间存在较大的模态差异
Visible Person Re-Identification
可见光人再识别的目标是在不重叠的可见光相机中匹配同一个人,在现有的公共数据集上取得了显著的效果[9]、[31]、[48]、[54]、[59]、[60]、[61]、[68]、[69]、[70]。为了加强涉及人体部位和颜色差异的图像的对齐,[36]提出了一种级联WConv模块,用于提取两幅不同图像之间的比较特征。[57]考虑了相机风格的变化,他们提出了相机感知风格转移来解决。对于空间定位,[52]通过动态训练聚合局部和全局特征。ABD-Net[3]将正交正则化分集作为对信道和位置注意的补充提示。文献[21]探索了样本之间的联系,用于数据集水平的观察,并在数据批内构建了相似图。文献[46]对图像的长期关系进行了研究,并引入了特征的统计方法。文献[35]估计人关键点,设计自适应方向图卷积层,以局部特征为节点,匹配不同图像的图进行检索。在视频人物再识别方面,[44]提出了对不同层次的身份歧视进行分析,并有效利用注意机制的优势学习鲁棒局部特征。文献[58]通过联合特征投影矩阵对图像和视频进行匹配。在训练过程中,提供一个出现人物的视频,帧中没有进一步的实例标签,[23]提出了一种基于图的度量学习方法,该方法制定了连续帧的空间图的一致性,并进行了区分视频之间的空间图形。文献[17]采用网络架构搜索,结合模式信息,搜索轻量级网络。文献[19]提出变压器网络采用端到端方式学习局部级特征,通过编码器-解码器结构处理被遮挡人,取得了令人满意的效果。
对于无监督的人再识别任务,[47]通过摄像机监督,研究摄像机内摄像机间相似性,生成伪标签。文献[50]通过比较不同训练阶段的伪标签相似度来解决伪标签噪声问题,并对其进行相应的细化。文献[29]通过在不同摄像机之间映射摄像机风格来解决无监督域自适应问题,并让网络学习目标摄像机不变特征。文献[1]采用假设迁移学习,可以从源模型和数据中迁移信息。对于广义的人物再识别,[14]解决了风格归一化对风格影响的限制,通过实例归一化过滤掉风格相关特征,恢复判别信息。
Visible-Infrared Person Re-Identification
桥接具有异构特征的可见光和红外图像是VI-ReID任务的一个挑战[34],[62],[63],[64],[65],[66],[67]。给定一幅红外查询图像,该任务旨在检索由可见图像组成的对面图片库中的人。一开始,[26]提出将可见光和红外图像集统一制定,以减少噪声对人识别的影响。文献[43]分析了流行的跨域方法,提出了深度加零方法。文献[56]应用了两流网络结构,并设计了一种分层方法来匹配度量学习函数,同时获取特定于模态和模态共享的特征。此后,许多研究都致力于通过情态不变信息来减少情态差异。[6]使用尖端的生成对抗网络来学习判别表示,并提出ID损失和跨模态三重损失来缓解类内差异,最大限度地提高可见-红外相似性。文献[12]利用Sphere Softmax处理分类、表示等不同子空间之间的关系,提出了一种两阶段训练方法来获得子空间解耦特征。为了进一步探索共享特征子空间,[15]将身份特征和频谱相关特征分离,设计了一个同时包含身份特征和频谱相关特征的双分支网络。文献[37]提出通过将可见光或红外图像转换为其他形式来减小模态差异。文献[32]使用Alignment GAN结合像素对齐和特征对齐。文献[13]考虑了图库和查询实例之间的相似性,提出了一种基于相似性的方案来度量模态内相似性和推理度量,以优化跨模态图像匹配。文献[38]、[33]、[20]、[5]、[10]、[40]也从特征和属性的角度探讨了神经网络设计。并跨模态生成图像。文献[41]提出了利用图注意的方法,该方法在零件水平上表述可见-红外相似度。文献[4]通过网络架构搜索实现特征选择过程的自动化。文献[11]提出了MCLNet来欺骗情态分类器,使其专注于情态的无关特征。文献[27]在模态之间应用像素级对应来抑制模态相关信息。文献[39]提出了一种融合模态协同学习,它产生了聚合可见光和红外特征的辅助模态,并通过这三种模态进行学习。文献[45]通过提出的模式对齐模块和模态缓解模块利用了细微但有区别的信息。
然而,现有的方法忽略了通道级的非均匀性,没有在通道级上安排数值分布。可见光图像由三个颜色通道组成,单通道红外图像大多被转换成R/G/B颜色通道表示。我们探索了通道级语义一致性和跨模态综合水平的约束,这有助于在很大程度上提高准确识别身份的性能。、
文章:面向可见-红外人物再识别的同质模态学习和多粒度信息挖掘
提出可见光-红外人员Re-ID任务,实现24小时不间断监控。除了常规的外观差异外,还存在光谱相机不同波长范围产生的模态差异[34]。为了处理这种跨模态差异,早期的研究尝试使用特征级约束学习模态可共享的特征表示[19]、[35]、[37]、[38]、[44]。他们设计了新的分类和/或三重损失指向优化跨模态样本。具体而言,[37]使用模态共享和模态特定的分类器在分类器层面学习身份信息,并引入协同集成学习方案,与多个分类器协同优化特征学习。[44]提出了双向top-ranking loss,从不同模态中抽取正、负对,并以双向交互迭代的方式优化跨模态三元组。最近,其他一些研究采用对抗性训练策略来减少图像层面的跨模态分布差异[29]、[30]、[32]、[36]、[46]、[49]。例如,它们将可见光图像的风格属性转移到红外图像,具有身份保持约束[30],[32]或周期一致性[29],[36]。
然而,由于缺乏成对的跨模态训练数据,基于gan的方法往往涉及很大的随机性,这可能导致在复杂的对抗性训练过程中身份不一致[32],[36]。相反,我们的方法提出利用对齐灰度模态空间(AGM)来减少图像级的跨模态分布差异。它不再是将A传递给B或B传递给A的模式,而是将A和B投射到C,其中C的空间平等地对待不同的情态信息。