Hybrid LSH: Faster Near Neighbors Reporting in High-dimensional Space

Hybrid LSH: Faster Near Neighbors Reporting in High-dimensional Space

研究了r-近邻报告问题(r - nearest neighbors reporting problem, rNNR)(或球形范围报告),即报告高维点集S中位于给定查询点半径r内的所有点。该问题在发现近似重复网页、解决k-多样性近邻搜索和基于内容的图像检索等问题中起着构建块的作用。该方法基于局部敏感哈希(LSH)框架,对高维空间的近邻搜索问题具有吸引人的渐近次线性查询时间。传统LSH方法求解rNNR的一个瓶颈是其性能对数据和查询相关参数敏感。在数据分布具有不同局部密度模式的数据集上,调整参数不当的LSH有时可以被简单的线性搜索超越

本文提出了一种基于lsh搜索和线性搜索相结合的混合搜索策略,用于求解高维空间中的rNNR。通过在LSH散列表中集成一个辅助数据结构,可以高效地估计基于LSH的查询查询的计算成本,而无需考虑数据的分布情况。这意味着我们可以在基于lsh的搜索和线性搜索之间选择合适的搜索策略,以获得更好的性能。此外,集成的数据结构是时间高效的,可以与许多最新的基于lsh的方法相适应。在真实数据集上的实验结果表明,在大范围的搜索半径和高维数据分布下,混合搜索方法的性能优于(或与)基于lsh的搜索和线性搜索方法相当。 

 方法:

 本节描述了一种新的混合搜索策略,将基于lsh的搜索和线性搜索相结合来求解rNNR。首先,我们提出了一个简单但精确的计算代价模型来衡量基于lsh的搜索的性能。通过在哈希表的每个桶中构造一个HLL数据结构,可以估计基于lsh的搜索的计算成本,进而确定使用lsh搜索还是线性搜索的条件。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值