GPH: Similarity Search in Hamming Space

在汉明空间中进行相似性搜索可以找到汉明距离不超过阈值的二进制向量。它在许多应用中都是一个基本问题,包括图像检索、近似重复网页检测和机器学习。现有的回答此类问题的方法主要是基于鸽子洞原理来生成候选集合,然后对候选集合进行验证。

我们注意到,基于鸽子洞原理的约束并不总是严格的,因此可能会产生不必要的候选项我们还观察到,真实数据的分布往往是倾斜的,但现有的大多数解决方案采用简单的等宽分区,为所有分区分配相同的阈值,因此未能利用数据的倾斜性来优化查询处理。本文提出了一种新的鸽子洞原理,它允许可变的划分大小和阈值。在此基础上,首先对候选集进行严格约束,然后设计代价敏感的维度划分和阈值分配方法来优化查询处理。在不同数据分布的数据集上的实验结果表明,该方法具有较好的鲁棒性和查询处理性能。 

 

 本文提出了一种解决汉明距离搜索问题的新方法,解决了上述问题。本文提出了鸽子洞原理的一种紧致形式,称为一般鸽子洞原理。

 

 

 

 III. GENERAL PIGEONHOLE PRINCIPLE

要利用鸽洞原理处理查询,需要解决两个关键问题:(1)如何将n维空间划分为m个分区;(2)如何计算阈值向量T,使其T1 = τ−m+1。 

 A. Cost Model

 

 

 V. DIMENSION PARTITIONING

本文介绍了我们的维度划分方法。设计了维划分的代价模型,并将维划分问题转化为优化问题以优化查询处理性能。然后提出了解决该问题的算法

实验部分

 阅读者总结:这篇论文在汉明距离查询上提出了一种新的广义鸽槽算法,这个很就有代表性,它克服了传统鸽槽算法在维度划分上没有考虑数据分布的特点。同时提出了一种查询成本模型,基于这个模型文中提出了一种新的距离阈值方法(动态分配),以及数据维度划分的方法。应该说这篇论文在理论证明和创新上很明显,具有很强的创新点。

这种写作和提出问题的方法值得学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值