Motivations
1、zero-shot SBIR面临 significant domain gap, intra-class variability and limited knowledge about the unseen classes等问题
2、先前的方法,[1]通过对齐的sketch-image pair 来学习sketch到image的映射,使用成对的监督信息是为了增强多模态数据(sketch-image)的相关性,从而学习过程能够以语义为指导。然而在实际场景中,很难获得成对的训练数据。此外,[2]通过使用memory fusion layer 来获得多模态的联合表示,但是融合层需要昂贵的内存消耗,而且从融合的高维空间中提取有用信息会导致信息损失。
Contributions
1、提出semantically aligned paired cycle-consistent generative model(SEM-PCYC) ,通过对抗学习将sketch和image映射到共同的语义空间, SEM-PCYC模型中每个分支的 cycle consistency constraint能够避免对齐的sketch-image pair的要求
2、通过特征选择导向的Autoencoder来组合不同来源的辅助信息(Text-based Model[Word2Vec、GloVe]、Hierarchical Model[WordNet]),选择能够最小化类内方差并且最大化类间方差的辅助信息
3、在Sketchy和TU-Berlin数据集上验证方法的有效性
Note:[1]是基于autoencoder的生成模型,本文是基于paired cycle-consistent的生成模型