SIGMOD2023｜高维近似最近邻搜索：可信高效的距离比较操作

程序员王同学

已于 2023-05-29 11:37:00 修改

阅读量1.6k

点赞数 1

分类专栏：近似最近邻搜索文章标签：算法 ANNS 向量检索近邻图

于 2023-05-29 11:34:15 首次发布

本文链接：https://blog.csdn.net/whenever5225/article/details/130924981

版权

近似最近邻搜索专栏收录该内容

25 篇文章

订阅专栏

论文信息

论文题目：High-Dimensional Approximate Nearest Neighbor Search: with Reliable and Efficient Distance Comparison Operations

作者：Jianyang Gao, Cheng Long

单位：NTU，南洋理工大学

主要内容

当前ANNS算法的时间开销由距离比较操作（distance comparison operations, DCOs）主导，当前方法的DCOs通常与向量维度d是线性复杂度关系。本文提出ADSampling可执行大部分DCOs与d是对数复杂度关系，且具有很高的成功率（这点很重要，因为PQ和random projection均可提升效率，但会明显影响精度）。基于ADSampling，本文还具体针对HNSW和IVF作为特定优化，在确保精度的情况下，显著提升了效率。

本文将当前ANNS算法统一为两个过程：(1) 产生KNN候选；(2) 从候选中选出结果。当前ANNS算法的差异主要体现在（1）而在（2）上差别不大。这篇论文的贡献主要体现在（2）上，如何从候选中选出结果（同时考虑效率和精度）。

从候选中选出结果：对于一个候选o，一个距离门槛r（比如一个有序KNN集合里，距离查询第k远的对象与查询的距离），如果o小于r则加入KNN集合，否则排除。最终的KNN集合作为结果返回。其中，可加入KNN里的对象称之为正对象，否则称之为负对象。

负对象占据很大的比例，比如，对于IVF而言，负对象个数是正对象的60x到869x。

方法论

ADSampling灵活地映射不同的向量到不同维数（降维到不同维数）。负对象离查询较远，因此可以映射到较低维数；正对象离查询较近，因此应映射到较高维数。具体地：（1）通过一个随机正交转移矩阵预处理所有原始向量生成转移向量，这一步仅仅随机旋转向量，不会破坏向量间的相对距离；（2）当处理不同对象的DCO时，取样对应转移向量不同的维数；这两步产生的取样向量与通过传统random projection获取的取样向量具有相同的分布。

ADSampling自适应地确定具体取样的维数，具体地，它增量地取样一个转移向量的维数直到能够自信地做出距离比较的决定。这个决定是根据当前取样维数下的近似距离通过hypothesis testing来做的。