SIGMOD2023|高维近似最近邻搜索:可信高效的距离比较操作

论文信息

论文题目:High-Dimensional Approximate Nearest Neighbor Search: with Reliable and Efficient Distance Comparison Operations

作者:Jianyang Gao, Cheng Long

单位:NTU,南洋理工大学

主要内容

当前ANNS算法的时间开销由距离比较操作(distance comparison operations, DCOs)主导,当前方法的DCOs通常与向量维度d是线性复杂度关系。本文提出ADSampling可执行大部分DCOs与d是对数复杂度关系,且具有很高的成功率(这点很重要,因为PQ和random projection均可提升效率,但会明显影响精度)。基于ADSampling,本文还具体针对HNSW和IVF作为特定优化,在确保精度的情况下,显著提升了效率。

本文将当前ANNS算法统一为两个过程:(1) 产生KNN候选;(2) 从候选中选出结果。当前ANNS算法的差异主要体现在(1)而在(2)上差别不大。这篇论文的贡献主要体现在(2)上,如何从候选中选出结果(同时考虑效率和精度)。

从候选中选出结果:对于一个候选o,一个距离门槛r(比如一个有序KNN集合里,距离查询第k远的对象与查询的距离),如果o小于r则加入KNN集合,否则排除。最终的KNN集合作为结果返回。其中,可加入KNN里的对象称之为正对象,否则称之为负对象。

负对象占据很大的比例,比如,对于IVF而言,负对象个数是正对象的60x到869x。

方法论

ADSampling灵活地映射不同的向量到不同维数(降维到不同维数)。负对象离查询较远,因此可以映射到较低维数;正对象离查询较近,因此应映射到较高维数。具体地:(1)通过一个随机正交转移矩阵预处理所有原始向量生成转移向量,这一步仅仅随机旋转向量,不会破坏向量间的相对距离;(2)当处理不同对象的DCO时,取样对应转移向量不同的维数;这两步产生的取样向量与通过传统random projection获取的取样向量具有相同的分布。

ADSampling自适应地确定具体取样的维数,具体地,它增量地取样一个转移向量的维数直到能够自信地做出距离比较的决定。这个决定是根据当前取样维数下的近似距离通过hypothesis testing来做的。

一些考虑

(1)在做hypothesis testing时,论文采用的取样维数步长是16,32,64时效果较好,但这三者之间性能差别不大,更大的情况不知效果如何,这可能要求原始向量维度非常高时才能取得比较好的效果。论文测试的数据集中向量维度最低为256。

(2)ADSampling是否会影响距离计算的硬件/指令加速?

(3)不降维的random project的作用是提升向量质量?使向量数据更加分散或均匀,提高数据的代表性或可分性?论文中没有给出相关论述,具体地,不做映射应用本文方法进行随机取样近似计算(即PDScanning)与本文ADSampling的性能差距没有很好的解释。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值