Hybrid LSH: Faster Near Neighbors Reporting in High-dimensional Space
研究了r-近邻报告问题(r - nearest neighbors reporting problem, rNNR)(或球形范围报告),即报告高维点集S中位于给定查询点半径r内的所有点。该问题在发现近似重复网页、解决k-多样性近邻搜索和基于内容的图像检索等问题中起着构建块的作用。该方法基于局部敏感哈希(LSH)框架,对高维空间的近邻搜索问题具有吸引人的渐近次线性查询时间。传统LSH方法求解rNNR的一个瓶颈是其性能对数据和查询相关参数敏感。在数据分布具有不同局部密度模式的数据集上,调整参数不当的LSH有时可以被简单的线性搜索超越。
本文提出了一种基于lsh搜索和线性搜索相结合的混合搜索策略,用于求解高维空间中的rNNR。通过在LSH散列表中集成一个辅助数据结构,可以高效地估计基于LSH的查询查询的计算成本,而无需考虑数据的分布情况。这意味着我们可以在基于lsh的搜索和线性搜索之间选择合适的搜索策略,以获得更好的性能。此外,集成的数据结构是时间高效的,可以与许多最新的基于lsh的方法相适应。在真实数据集上的实验结果表明,在大范围的搜索半径和高维数据分布下,混合搜索方法的性能优于(或与)基于lsh的搜索和线性搜索方法相当。
方法:
本节描述了一种新的混合搜索策略,将基于lsh的搜索和线性搜索相结合来求解rNNR。首先,我们提出了一个简单但精确的计算代价模型来衡量基于lsh的搜索的性能。通过在哈希表的每个桶中构造一个HLL数据结构,可以估计基于lsh的搜索的计算成本,进而确定使用lsh搜索还是线性搜索的条件。