摘要
这篇paper中提出了Deep Supervised Hashing (DSH)来进行binary code的学习。主要特点如下:(1)设计了深度CNN模型,training data的输入为图像对(imilar/dissimilar),输出为每幅图像的hash code;(2)loss function 最大化了图像之间的区别,区别是从输入图像编码而成的编码空间;(3)在离散化真实值的输出上加了正则项;(4)对于查询的图像通过模型编码成hash code,并通过binary code 表示图像特征。通过在CIFAR-10 和NUS-WIDE上与state-of-the-arts 相比,DSH实验效果promising performance。
主要工作和解决的问题
DSH采用一种CNN架构,输入为图像对(无论两个图像是否相似),输出为binary code。具体架构如下。在实际过程中, 采用在线生成图像对(generate image pairs online)以至于在训练阶段有更多的图像对进行训练。loss function将相似图像在编码空间上拉近距离,将不相似的图像在编码空间上推远距离。为了避免在loss function在hamming空间上不可微分,输出的值松弛化到真实值,同时在离散化的真实值的输出上加了正则项。
主要解决的问题在之前模型中非线性的激活函数在生成hash code中需要很大的计算代价,降低了网络的训练。文章主要对损失函数进行了优化推导。
DSH模型
DSH模型学习图像特征的compact binary codes,主要优点在于:(1)相似的图像在hamming空间上编码相似;(2)binary code计算更加高效。
Loss Function