【零样本哈希】ZSH:Zero-Shot Hashing via Transferring Supervised Knowledge

文章提出了一种零样本哈希(ZSH)方法,旨在利用有限的训练样本学习哈希函数,对未知类别图像进行哈希编码。ZSH通过将标签映射到语义空间,利用语义关系迁移监督知识,解决传统方法在新兴类别上的局限。同时,通过语义对齐策略减少语义偏移,保持哈希编码的局部结构和离散性。实验表明,ZSH在CIFAR-10、ImageNet和MIRFlickr数据集上显著提高了零样本图像检索的性能。
摘要由CSDN通过智能技术生成

ABSTRACT

哈希在促进大规模多媒体应用方面已显示出其效率和有效性。与数据相关的监督知识(如语义标签或成对关系)可以显著提高哈希编码和哈希函数的质量。然而,面对网络上新兴概念和多媒体数据的快速增长,现有的监督哈希方法受限于人工标注的高昂成本,很容易受到监督信息的稀缺性和有效性的影响。本文提出了一种新的哈希方法,zero-shot hashing (ZSH),它利用有限的训练样本来学习哈希函数,并对未知类别的图像进行哈希编码。具体来说,我们将独立标签( 0/1形式的标签向量)投影到词向量空间中,在该空间中,所有标签之间的语义关系可以被精确地描述,从而将已知类别的监督知识迁移到未知类别中。此外,为了解决语义偏移问题,我们对词向量空间进行旋转,将语义空间与低层视觉特征空间对齐,从而减轻了语义鸿沟的影响。
Keywords: zero-shot hashing; discrete hashing; supervised knowledge transfer; semantic alignment

INTRODUCTION

哈希是一种能够有效实现大规模多媒体数据检索的索引技术。为了实现更短的检索时间和更少的计算开销,哈希技术将高维数据映射成紧凑的二进制编码。通过哈希编码,可以降低数据的存储开销,而且汉明距离可以通过CPU的异或操作来高效计算。由于哈希能够缓解“维度灾难”问题,哈希在现实场景中也得到了广泛的应用,包括多媒体检索和多媒体事件检测等。
哈希技术可以分成数据独立和数据依赖两类。对于数据独立,比如说局部敏感哈希(LSH),没有数据的先验知识(监督信息),而且哈希函数也是随机生成的。为了获得较高的准确率,需要较长的哈希编码(通常超过1000bits),但存储和计算开销问题也随之而来。为了解决这个问题,研究转向数据依赖的方法,它能利用数据本身的内部信息。数据依赖的方法可以分为有监督哈希(e.g., Supervised Hashing with Kernels, Weakly-supervised Hashing and Supervised Discrete Hashing)和无监督哈希(e.g., Iterative Quantization, Order Preserving Hashing and Robust Discrete Spectral Hashing)。通常来说,有监督哈希比无监督哈希的效果更好,因为监督信息(e.g., semanticlabels and pair-wise data relationship)有助于挖掘数据的内在性质,从而生成更好的哈希编码和哈希函数。
随着网络数据的爆炸式增长,传统的监督哈希方法面临巨大的挑战,新兴语义概念和多媒体数据增长迅猛,而监督知识( supervised knowledge)不能得到及时更新(高昂的人工标注成本)。如图1所示,对于已知类别的样本,现有的监督哈希方法可以达到令人满意的效果,因为有可靠的监督信息指导学习过程,但是这些方法不能泛化到未知类别(训练数据中不包含的类别)。例如“segway”。此外,大多数现有方法以 0/1 semantic labels or pair-wise data relationship的形式利用监督信息,导致类别之间的语义关系被忽视。这种语义独立( semantic independency)的缺点之一是每个类别既不能从其他语义相关类别中学习到也不能将它的监督信息分配给其他类别。


在这里插入图片描述

上述缺点启发我们,是否可以先通过已知类别学习哈希函数,在面对未知类别时,利用已经学习到的哈希函数进行哈希编码。该目标的关键挑战是如何构建已知类别与未知类别的关联,来迁移监督信息。 zero-shot learning (ZSL)被广泛用于解决此问题。ZSL的目标是学习从特征空间到高层语义空间的映射关系,从而避免对新类别进行标注并重新训练模型。ZSL通常通过类-属性描述子(class-attribute descriptors)来构建低层视觉特征和高层语义空间的语义联系,从而只使用属性和类别之间的关系就可以学习到新类别。然而,现存的基于属性的ZSL方法有以下局限:(1)人工标注的属性信息存在不准确和不完整问题;(2)当面对跨域(domain shift)问题时,预定义的属性的区分能力降低。
近年来,辅助数据集被证明有助于帮助零样本学习问题。例如,利用Wikipedia,可以得到单词的分布式表示(distributional representation of word embedding),能够使得相似的单词在语义空间上的距离更近。在学习过程中,视觉信息可以被词向量描述,这些知识可以被迁移到模型中。所以许多方法利用辅助模态(跨模态)来解决ZSL问题。
如前所述,随着新型概念和多媒体数据的迅速增长,我们急需一种能够对未知类别图像进行哈希编码的可靠且灵活的哈希函数。然而,在哈希领域,ZSL问题很少被研究。我们提出一种新颖的哈希方案,零样本哈希(zero-shot hashing ,ZSH)。由于word embedding能够很好地捕获语义关系,我们将one-hot的标签映射到语义空间,从而已知类别和未知类别能够共享监督信息。这种方法使得可以不借助任何视觉信息就能编码未知类别的图像。此外,即使我们不能精确地检索到该类别,也能检索到语义相近的类别图像。而且我们认识到直接利用词向量会导致语义偏移(semantic shift)问题。所以旋转词向量空间(rotate embedded space)来提升哈希函数对未知类别的泛化能力。为了更进一步提升哈希函数的效果,我们保留了数据的局部结构性质(保持相似性)和二进制哈希编码的离散性质。

CONTRIBUTIONS

1、解决了利用有限的已知类别的训练数据来学习可靠的哈希函数,用于对未知类别的图像进行哈希编码的问题。提出了一种新颖的zero-shot hashing方案,通过 semantic embedding space将原本独立的标签联系起来。这是首次提出利用有限的监督知识,对新兴概念进行哈希编码的问题。
2、提出一种将监督知识从已知类别迁移到未知类别的策略。具体地,我们将标签投影到词向量空间,这样标签之间的语义关系可以量化地计算。通过这种方式,未知类别标签可以用它相近的已知类别来表示。例如,“ segway”可以用“bicycle”和“automobile”来学习得到。
3、由于初始的语义向量是来自现成(纯粹基于语料库)的词向量空间,可能会带来类别与视觉特征之间的语义偏移( semantic shift)问题。为了缓解这一问题,我们提出旋转词向量空间(rotate embedded space)来更好地匹配底层特征,从而缓解语义鸿沟现象。
4、为了生成更可靠的哈希函数,我们提出利用数据的潜在性质来提升 intermediate binary codes(哈希编码的近似解)。具体地,在学习过程中,对哈希编码增加离散约束,并且保持了数据局部结构(如果两个图像在原始空间中相近,那么它们在汉明空间也应该相近)。

ZERO-SHOT HASHING

Problem Definition

假设给定n张训练图像X,对应的标签矩阵为Y,其中包含C个类别。传统的监督哈希方法认为测试数据也是来自这C个类别的。而零样本哈希中测试数据类别和训练数据类别没有交集。我们希望仅仅通过训练数据X&#x

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值