目录
- Introduction
- Methods
-
- [2020 AAAI] Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification
- [2020 arxiv] Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification
- [2020 CVPR] Hi-CMD Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification
- [2020 arxiv] RGB-IR Cross-modality Person ReID based on Teacher-Student GAN Model
- [2020 IJCAI] A Similarity Inference Metric for RGB-Infrared Cross-Modality Person Re-identification
- Datasets
Introduction
ReID最近主要研究可视摄像机模块,即给定一个人的查询图像/视频,并从其他摄像机捕获的图像/视频中搜索出来。
然而,在光照较差的环境下(如夜间),可视摄像机无法捕捉到有效的外观信息,这限制了其在实际监控应用中的适用性。
因此提出了RGB-IR跨模态行人重识别。
Challenges
这面临着两个挑战:
- 不同的相机视角和人体姿势导致的巨大的模态内的差异
- 不同摄像头光谱导致的不同模态之间的差异 (区别与普通的Re-ID)
跨模态( RGB-Thermal )行人重识别这项任务目前大多研究的做法等同于跨模态检索匹配,它所面临的挑战主要来源于不同结构数据间差异较大的问题。RGB 图像三通道的信息和 Thermal 图像的单通道信息本身的信息容量和表示形式有所不同,不同的清晰度和光照条件在两类图像上所能产生的效果可能会大相径庭。比如施加相同的光照条件在这两类图像上,很可能对于 RGB 图像来说会增加清晰度,而对于 Thermal 图像来说可能就会因为亮度过高以至于图像模糊不清。
Advantages
红外重识别的优势也是显而易见的
- 弱光or黑暗条件下,普通re-id效果很差
- 大多数监控摄像头可支持红外图像和彩色图片
- 再者,红外图像不受可见光的影响
传统的 RGB-RGB 行人重识别只能解决光线充足下的识别任务,而在夜间或者是光线较暗处,可见光摄像机几乎已无用武之地。犯罪分子或者是一些有所企图的人们通常爱好在夜间行动,这时候仅仅靠可见光摄像机去捕捉图像显然是不能解决问题的。如今的摄像机大多都将红外和可见光功能配在了一起,其中红外摄像机在白天或者黑夜都能够获取行人的红外图像信息,这为跨模态行人重识别的研究提供了有利的条件。与传统的行人重识别任务有所不同,跨模态行人重识别专注于匹配跨模态下的图像,它可以利用行人的 RGB(Thermal) 图像去搜索跨设备下该行人的 Thermal(RGB) 图像。
Methods
对于跨模态行人重识别问题,其根本目的是解决两种模态之间的gap,大致解决思路为以下两种:
- 使用参数共享的卷积神经网络,学习两种模态之间的共享特征,其中包含是否考虑模态特定特征
- 使用GAN,通过训练生成器和判别器去学习模态之间的关联,其中包含使用真实IR图像来生成假的RGB图像,以及通过真实RGB图像来生成假的IR图像
下面是近两年五篇关于红外行人重识别的模型方案
[2020 AAAI] Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification
paper: https://arxiv.org/pdf/2002.04114.pdf.
code: https://github.com/wangguanan/JSIA-ReID.
这篇文章发表于AAAI 2020,是用GAN解决ReID问题的一个新的思路。
RGB图像和IR图像之间的较大模态差异,使得RGB-IR行人重识别很有挑战性。解决这个问题的关键是学习RGB和IR两种模态间的对齐特征。然而由于在每对RGB和IR图像间缺乏对应的标签,目前大部分方法都会尝试利用set-level(集合级别)的对齐来减小模态之间的差异。然而,建立起整个set间的对齐,可能会造成个例间的不对齐,从而限制RGB-IR ReID的性能。
- 论文所述方法通过区别开modality-specific和modality-invariant特征(在这里,模态不变特征包括姿势、性别、服装类别、携带的东西等内容信息。模态特定特征有服装/鞋的颜色、质地等风格信息。)来实现set-level的对齐。与传统方法相比,这直接去除模态特定特征的方式,可有效降低模态间的差异。
- 考虑到个例的跨模态不配对图像,本文方法利用交换的图像来生成跨模态配对图像。利用生成图像,通过最小化每对配对图像的距离,来实现instance-level(实例级别)的对齐。
既然是为了提高相似性,有一个非常简单明了的想法:用 RGB 图像生成对应的红外图像,同时红外图像也生成对应的 RGB 图像。这样我们提取 RGB(红外)图像特征的时候,可以直接将其转换成红外(RGB)图像,随后整体的框架就变成单模态下红外(RGB)的行人重识别。两个模态的数据统一成了一个模态下的数据,给人的感觉就已经很相似了。
本文框架就是这样的基本思路,其中包括一个跨模态配对图像生成模块G和一个特征对齐模块F。
- 生成模块G包括三个编码器和两个生成器 ,首先将图像分解成特定模态和不变模态特征,然后解码所交换的特征。比如RGB decoder是IR特定特征和RGB不变特征的图像生成器,也就是利用IR图像的风格和RGB图像的内容来生成图片
- F首先使用模态不变编码器进行set-level对齐,然后通过最小化每对图像的距离进一步缩小进行instance-level对齐。最后,通过训练这两个模块,我们可以同时在set-level和instance-level对齐图像特征