DB-LSH: Locality-Sensitive Hashing with Query-based Dynamic Bucketing
在高维近似最近邻搜索问题的众多解决方案中,局部敏感哈希(locality sensitive hashing, LSH)以其亚线性的查询时间和对查询精度的鲁棒理论保证而闻名。传统的LSH方法可以从哈希表中快速生成少量候选集,但存在索引规模过大和哈希边界问题。最近针对这些问题的研究通常会产生额外的开销来识别合格的候选项或删除误报,使查询时间不再是次线性的。为了解决这个难题,本文提出了一种新的LSH方案DB-LSH,支持对大型高维数据集的高效ANN搜索。它使用多维索引来组织投影空间,而不是使用固定宽度的哈希桶。该方法避免了为不同大小的桶维护多个散列表的需要,从而显著降低了空间成本。在DB-LSH的查询阶段,通过基于索引的窗口查询,动态构造满足查询要求的超立方桶,从而高效地生成少量高质量的候选集。对于近似比为c的nd维数据集,严格的理论分析表明,DB-LSH具有更小的查询代价
方法:
本文提出了一种新颖的(K,L)-索引方法,以查询为中心的动态分桶策略DB-LSH来解决高维c-ANN搜索问题。DB-LSH解耦了(K,L)-索引的哈希和分桶过程,使得可以回答任何r的(r, c)-NN查询,以及任何的c- ann查询;只需要一组索引(即不需要对每个可能的r执行L次LSH)。
这样大大降低了空间成本,使L值的降低成为可能。DB-LSH构建以查询为中心的动态桶,并进行