基于近邻图的向量检索算法:单调相对邻域图MRNG的一些重要理论性质

个人主页:mzwang.top

论文信息

题目: Understanding and Generalizing Monotonic Proximity Graphs for Approximate Nearest Neighbor Search

作者: Dantong Zhu, Minjia Zhang; 于2021年7月27发表在arXiv上。

背景

理论分析基于图的ANNS算法。

为什么基于MRNG构建的近邻图算法普遍具有更好的搜索性能?

冲突结点,conflicting nodes (提升搜索性能,非常重要的一个概念!).

理论模型

单调图能够确保精度100%。寻找一个搜索更高效的单调图?边最少的单调图,减少任意一条边,图就不是单调的了。

在NSG的论文中MRNG并没有很好的定义,我们只知道满足那样约束条件后图是单调的,但是,我们并不知道它是不是边最少的单调图,或者是不是在给定数据集上唯一的一个单调图。本文在MRNG定义的基础上给出了以下引理,并给出了证明。

引理1. 在给定数据集上,MRNG是唯一的。

引理2. MRNG是边最少的单调图,也就是任意去掉其中一条边得到的图便不再单调。

根据上面的内容,MRNG似乎是我们想要的理想的用于ANNS的图,但是我们要构建一个这样的图结构要花费高昂的时间开销。

实践优化

考虑到构建MRNG高昂的时间成本,本文从两个角度优化:(1)出度上界;(2)候选池上界。

作者通过实验得到Generalized MRNG的以下特点:在MRNG中,一些过长的边并不会给搜索性能带来积极的影响。设置一个适当的出度上界在相同的精度下提升搜索效率(MRNG虽然可确保精度,但是效率不一定有Generalized MRNG好)。作者在规模为5000维度分别为25和100的数据集上实验测试表明:Generalized MRNG的最优平均出度仅为MRNG出度的一半。作者还用了相变的概念来解释度上界对Generalized MRNG的影响。比如,随着当度较小时,随着度的增加,连通性逐渐提升,搜索性能提升;当度达到一个特定值,连通性也达到一个特定的水平(比如刚好达到一个全局联通的水平),继续增加度,搜索性能基本不会再受连通性影响。

冲突结点

作者给出局部最优结点和冲突结点的定义。其中,冲突结点是非常重要的一个概念,作者在文中已经给出了非常重要的理论证明,我认为这非常值得进一步的实践研究。作者也给出了一些主要的挑战:每一条边都会产生一个冲突结点集合,因此,可能存在大量冗余的冲突结点,这对保存冲突结点和搜索检查冲突结点都是不利的;某一个冲突结点安排给哪一条边是最优的,这不好评判。

未来,如何用好冲突结点,需要进一步探索,特别是在实验上。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值