基于近邻图的近似最近邻搜索(学习裁边)

个人主页

简介

论文题目:GraSP: Optimizing Graph-based Nearest Neighbor Search with Subgraph Sampling and Pruning,2022年发表在WSDM会议上。论文根据查询的分布学习裁边(learn to prune)。

主要内容

论文指出基于近邻图的ANNS算法构建面临一个问题是:通过一些启发式规则开发不同的图索引结构,并没有直接从在线搜索效率的角度直接优化图索引,这使得它们在一些数据集上表现较好,在另一些数据集上表现较差。

本文主要创新:给定一个查询训练集,将图裁边过程形式化为一个离散优化问题(目标:最大化搜索效率)

动机

在线查询服务每天处理成千上万查询,这些查询存储在日志中,这自然会引发利用这些查询优化搜索效率的考虑。本文构建一个所谓的Annealable similarity graph,通过子图采样和迭代精炼方法,基于边的联合概率,利用这些查询训练学习一些重要的边。本文动机可细分为以下几方面。

(1)连边多样性。

在这里插入图片描述

上图三个算法实验比较表明,考虑连边多样性(NSG和HNSW)有利于搜索性能提升。然而,HNSW和NSG均没能在所有数据集上最小化搜索延迟,说明两者均不是最优的,存在优化空间。

(2)查询分布。

在这里插入图片描述

HNSW算法的边在查询时被访问的频率统计,可知,很少量的边被高频访问。文中还分析了顶点邻居数(或边数)上界的大小造成的查询效率和精度的权衡,并指出边的数量不应固定,而应自适应设置,以避免冗余计算。NSG论文中指出,边数上界固定便于索引对齐,可顺序访存,提升效率。

论文的方法(GraSP)

(1)近邻图概率模型。

给近邻图中的边添加上权重,根据权重可计算一个概率,并可根据概率值评判此边是去是留(伯努利随机变量)。初始时,各边的概率相等。具体设置方式参考论文。

(2)模型化边重要性。

随机删除满足一定概率的边,比较删除前后搜索效果,从而评估这些边的重要性。给定一查询和搜索预算,在近邻图(取样)上搜索时从起始点至终止点形成一条路径,如果在取样图上无法达到真实查询目标,那么这条路径上的边集是重要的。

(3)感知搜索效率的目标函数。

在取样图上搜索结果与查询距离,和查询真实最近邻与查询距离,这两者形成距离误差(distance loss),其值越大,搜索结果与真实结果的偏差越大。(好像说 感知搜索精度的目标函数 更直接)

(4)通过权重取样学习边重要性。

每次迭代,一些边的权重将增加;通过权重的标准化,一些边的权重将下降。此外,取样子图时根据边权重执行,主要取样权重值较大的边。

(5)学习过程迭代执行(迭代次数不超过20),最终删掉权重较小的边,保留权重较大的边。

部分实验

(1)图邻居数分布满足截断幂律分布可能更有利于搜索。

(2)学习时间。在SIFT1M数据集上,比如NSG算法用GraSP后会增加25倍的索引构建时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值