Abstract
在传统的哈希方法中,往往使用数据对(pairwise)或者三元组(triplet)的形式进行模型训练,这些方法只能在局部区域(即上面的pairwise和triplet)上捕捉数据的相似性,并且训练低效、low collision rate(我理解为每次一个数据只能出现在二元组或三元组中,即只能碰到其他的一个或两个数据,所以数据碰撞率或接触率低)。本文则提出了中心相似度的方法,这种方法可以进行全局的相似度度量,相似的图片被推向同一个类中心,而不相似的图片被分别推向不同类中心。本文引入了Hash center进行相似度的度量,这些center之间都会保证有一定的距离。本文使用了哈达玛矩阵和伯努利分布两种方法生成这些Hash center。
Introduction
传统的基于二元组或三元组的哈希学习方法具有以下的局限性:1)穷举n个数据构成的数据对,其时间复杂度有O(n!),对于大规模数据库这是很困难的。2)这些方法仅仅在局部对样本对进行分析,往往不会考虑到所有数据对,因此没有涵盖到整个数据集的分布状况。3)在分布不平衡的数据集上(如长尾分布,小样本等)训练不好。
因此,本文提出使用central similarity的方法训练哈希码。CSQ方法保证每个Hash center间都有足够的距离(sufficient mutual distance),并鼓励图片的哈希码接近其对应的Hash center。因此,对于m个center和n个数据样本,其遍历的时间复杂度只有O(mn)。