目录
Motivations
1、zero-shot,标注新兴概念的时间和人工成本高,而且重新训练哈希模型也很耗时;
2、现有的ZSH方法关注单模态图像检索(以图搜图),但现实生活中也有很多以文搜图的例子,所以研究跨模态zero-shot hashing。
Contributions
Cross-Modal Zero-Shot Hashing (CMZSH)的挑战:
1、模态异质性。由于查询集和检索集可能来自不同的模态,因此生成的哈希编码应该具有一个额外的属性,以保持这两种模式之间的语义关系。
2、类别迁移。ZSL的问题是学习到的模型应该具有处理未知类别的能力。因此,CMZSH需要能够迁移监督知识来构建已知类别和未知类别的联系。
3、相似性保持。哈希函数实际上是高维实值特征到低维二进制空间的映射。为了实现有效的最近邻搜索,生成的二进制哈希码需要保持高维实值特征的语义相似关系。
贡献:
1、首次提出Cross-Modal Zero-Shot Hashing (CMZSH)问题
2、提出 Attribute-Guided Network (AgNet),首先将不同模态映射到共同的属性空间(不仅可以联系已知类别和未知类别,也能联系视觉模态和文本模态),再通过共享参数的网络,分别生成文本和图像的哈希编码(保持类别相似性和属性相似性)
3、实验证明AgNet的有效性
Methods
AgNet框架由三部分组成: i)V2A Net:将预训练好的GoogleNet的最后一层输出作为图像特征,经过三层全连接映射到属性空间;ii) T2A Net:将所属类别的1000维词向量作为文本特征,经过两层全连接映射到属性空间; iii) A2H Net:不同于现有的跨模态哈希方法(用两个独立的网络分别生成图像哈希码和文本哈希码),A2H是经过共享的网络(三层全连接)生成图像和文本的哈希编码。注意,网络设计并不是本文的重点,而是为了证明attribute-guide框架是一种合理有效CMZSH的框架。
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/2bb57d2c034b36ec3ad4e2c44b9e3f2e.png)
对于V2A Net和T2A Net,可以用交叉熵损失,保证了预测的属性向量近似于原始属性向量(人工标注的属性信息)的分布: