Abstract
基于visual-semantic embedding的ZSL方法存在信息损失(semantic loss)的问题,在训练过程中,如果某些语义信息对分类的区分性不大,则会被丢弃,但是这些信息往往对识别unseen class很重要。为了避免semantic loss,我们提出 Semantics-Preserving Adversarial Embedding Network (SP-AEN),通过引入visual-to-semantic space embedder ,将语义空间分解成两个子空间,分别进行分类和重构任务(可以认为是两个互相冲突的任务)。通过对这两个子空间进行对抗学习,SP-AEN可以将语义信息从重构子空间迁移到判别子空间,从而改进对unseen class的识别效果。与先前的方法相比,SP-AEN不仅可以提升识别效果,还能生成图像,验证了语义信息保留的有效性。
Note:该方法仍然是visual-semantic embedding的方法
Motivation
基于visual-semantic embedding的ZSL方法的语义迁移能力受限于semantic loss问题。训练阶段,丢弃低方差信息(判别信息较少)对分类有利,但是由于seen class和unseen class之间的语义差异,这些信息在测试时(对于unseen class)往往有较强的判别性,这将导致对unseen class的语义信息损失。主要原因是虽然 class embedding 具有丰富的语义信息,但它只是语义空间中的一个点,图像映射(将视觉空间映射到