Point-to-Hyperplane Nearest Neighbor Search Beyond the Unit Hypersphere
点到超平面最近邻搜索(P2HNNS)是一个基础而富有挑战性的问题,在各个领域都有广泛的应用。现有的超平面哈希方案具有次线性查询时间,在支持向量机(svm)的大规模主动学习等应用中取得了优异的性能。然而,他们只是有条件地处理这个问题,前提是强烈假设所有的数据对象都是规范化的,位于单位超球上。在没有这个假设的情况下,这些超平面哈希方案可能非常糟糕。
本文引入了一种新的非对称变换,并针对单位超球之外的高维p2hnn提出了前两种可证明的超平面哈希方案:最近超平面哈希(Nearest hyperplane hashing, NH)和最远超平面哈希(最远超平面哈希(hyperplane hashing, FH)。通过这种非对称变换,我们证明了NH和FH的哈希函数对超平面查询是局部敏感的,并且它们都能保证查询结果的质量。此外,我们还提出了一种数据依赖的多划分策略来提高跳频的搜索性能。NH可以在亚线性时间内完成超平面查询,而FH具有更好的实际性能。在五个真实的数据集上评估了NH和FH,结果表明,在五个数据集中的四个数据集上,我们比最好的竞争对手快了约3 ~ 100倍,尤其是在[20%,80%]的召回率方面。代码可以在https://github.com/HuangQiang/P2HNNS上找到。