目录
论文链接:https://www.ijcai.org/Proceedings/2018/0094.pdf
摘要
(1)提出一种新的跨模态生成对抗网络(称为cmGAN)。为了解决鉴别信息不足的问题,设计了一种基于生成对抗训练的鉴别器,从不同的模式中学习鉴别特征表示。
(2)为了解决大规模跨模态度量学习问题,将id损失和跨模态三元组损失结合起来,在最大化实例间跨模态相似性的同时最小化类间歧义。通过使用标准的深度神经网络框架,可以以端到端的方式对整个cmGAN进行训练。
困难:
(1)学习距离度量是困难的,尤其是在大规模跨模态检索。
(2)来自不同模态的不平衡数据,表明不同模态的分布和表示不一致。
方法
(1)一种新的跨模态生成对抗网络(称为 cmGAN)
(2)ID loss+cross-modality triplet loss+classification loss
生成对抗训练理论设计了鉴别器,从不同的模式中学习鉴别特征表示,混合损失算法最大化实例间跨模态相似性的同时最小化类间歧义。cmGAN包括一个深度卷积神经网络作为生成器,用于在公共子空间中生成RGB和IR图像的模态不变表示,以及一个模态分类器作为鉴别器,用于区分不同模态。通过混合损失对生成器进行监督和优化,ID loss可以分离类间嵌入,而cross-modality triplet loss可以最小化RGB和红外表示之间的差距。生成器和鉴别器作为一个极小极大博弈相互击败,以学习判别公共表示。
cmGAN
由两部分组成。深度卷积神经网络作为发生器,具有ID loss和cross-modality triplet loss用于在公共子空间中生成RGB和IR图像的模态不变表示,以及模态分类器作为鉴别器,用于区分不同模态。生成器和鉴别器以极小极大博弈的方式相互击败,以学习人员Re-ID的判别公共表示。
Generator
构造了两种损失函数的生成模型,即ID loss和cross-modality triplet loss。
(1)ID loss
确保模态内的区分。为了在公共子空间中投影每个模态的特征表示,在识别丢失的情况下建立了几个完全连通的层。前馈网络由softmax激活,并在全局平均池之后添加,从而输出人员身份的概率分布。
(2)cross-modality triplet loss
施加三重约束以最小化来自不同模态的相同人的特征之间的差距。
目标函数为:
Discriminator
此模态分类器将学习判断所学习的表示向量是在同一模态内还是在充当对手的不同模态之间。模态分类器由三层前馈神经网络组成,在该网络上,判别器 (对抗) 损失由模态分类器的交叉熵损失定义,如下所示:
Training Algorithm
通过共同最小化生成器和鉴别器损失来端到端地进行模型学习,由于生成器和鉴别器以相互打击为目标的minimax运行,因此优化执行两个子过程:
Experiments
cmGAN 在三元组损失函数中具有不同边距 ξ 值的性能:
当ξ设置为1.4时,我们的方法获得了最佳性能报告结果 。
全搜索和室内搜索模式下的性能:
底部三行的结果显示了cmGAN的性能及其两种变体。结果表明ID loss和cross-modality triplet loss对最终检索结果都有贡献,表明将两个损失函数一起优化所提出的模型比仅使用其中一个模型更好。同时cross-modality triplet loss对性能的贡献更大,说明ID loss不包括跨模态信息,因此cross-modality triplet loss可以更好地将两个不同的模态特征投影到同一特征子空间中。
训练过程中对生成损失和判别损失的观察:
该图表明,当判别损失开始突然变化然后稳定在 0.7 左右时,生成损失几乎单调下降并平滑收敛。
训练过程中全损和无鉴别器全损的趋势:
结果表明,mAP 分数不断增加并保持不变,直到生成损失收敛。带有判别器的 cmGAN 的损失比没有判别器的情况下降得更慢,说明生成器和判别器形成一个对抗训练过程,将不同模态的特征表示投影到公共子空间中。