Improving Approximate Nearest Neighbor Search through Learned Adaptive Early Termination

西西弗的小蚂蚁

已于 2024-04-20 10:08:30 修改

阅读量20

点赞数

分类专栏：时间序列/高维数据相似性查询文章标签：决策树机器学习人工智能

于 2022-09-17 11:52:06 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126899281

版权

时间序列/高维数据相似性查询专栏收录该内容

46 篇文章 8 订阅

订阅专栏

在从图像搜索到推荐系统的应用中，识别一组与查询向量"相似"的实值向量的问题起着至关重要的作用。然而，从大型数据库中检索这些向量并计算相应的相似性分数在计算上具有挑战性。近似最近邻(ANN)搜索通过向量压缩和/或每次查询只搜索数据库向量的一个子集，放宽了准确性和效率的保证。搜索更大的子集会增加准确率和延迟。最先进的ANN方法使用固定配置，对所有查询应用相同的终止条件(搜索子集的大小)，这在试图实现最后几个百分点的准确性时导致了不希望出现的高延迟。研究发现，由于索引结构和向量分布的原因，寻找真实最近邻所需要搜索的数据库向量的数量在不同的查询中差异很大进一步发现，搜索一定数量后的中间搜索结果是一个重要的运行时特征，表明应该执行多少搜索。为了在延迟和准确性之间取得更好的权衡，本文提出一种新的方法，自适应地确定单个查询的搜索终止条件。为此，我们构建并训练梯度提升决策树模型，以学习和预测何时停止对特定查询的搜索。与固定配置相比，这些模型使我们能够以更少的总搜索量达到相同的精度。将学习到的自适应提前终止应用于最先进的人工神经网络方法，并评估了在300万到10亿规模数据集上的端到端性能。与固定配置相比，在相同的高精度目标下，该方法将平均端到端延迟提高了7.1倍。

动机：

1）Fixed configurations lead to inefficient latency-accuracy tradeoff

这表明，当试图达到高召回目标时，固定配置方法会导致不希望的高平均延迟。

IVF和HNSW在GIST1M上的表现都较差，原因有二:一是欧氏距离计算时间与向量维数成正比;其次，搜索GIST1M数据集比SIFT10M和DEEP10M更难，尽管它的大小更小。当平均比率接近1时，这意味着每个查询的前100个邻居彼此更相似，这增加了ANN搜索的难度:对于IVF索引，查询可能接近更多的集群;对于HNSW索引，可能需要更多的图节点遍历才能到达真实值的最近邻。

3.2 Queries need different termination conditions

这是因为:1)查询到数据库向量的距离计算是一个耗时的任务;2)即使搜索的top候选节点数量相同，距离评估的数量也有很大的变化:

3.3 How to predict the termination condition

随着查询结果与中间搜索结果之间距离的增大，找到真实值所需的最小搜索量也随之增大。这表明，中间搜索结果是高度相关的特征:如果你的搜索结果离查询仍然很远，你可能想搜索更多。为了获得这个功能，我们需要对所有查询进行固定数量的搜索，即使有些查询需要的数量更少。然而，我们认为这种运行时特性对于第4节中解释的预测模型是必要的，并且所提出的方法仍然需要利用搜索终止条件之间的大多数变化。

4 DESIGN

我们的预测器接受一组来自算法的输入，反映当前的查询状态，并输出一个数值，表示还需要做多少工作。首先介绍预测器接受的参数以及它是如何训练的。然后我们讨论对指数本身的集成

阅读者总结：这篇论文在向量查询方面很具有代表性：值得学习

1）文中通过大量的实验得到实验观察的现象，得出两个启发：一个有效的终止条件能够提到向量检索的效率；2）随着回召率一定的条件下，继续检索最近邻对象，导致大量延迟。

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Improving Approximate Nearest Neighbor Search through Learned Adaptive Early Termination

最先进的ANN方法使用固定配置，对所有查询应用相同的终止条件(搜索子集的大小)，这在试图实现最后几个百分点的准确性时导致了不希望出现的高延迟。研究发现，由于索引结构和向量分布的原因，寻找真实最近邻所需要搜索的数据库向量的数量在不同的查询中差异很大进一步发现，搜索一定数量后的中间搜索结果是一个重要的运行时特征，表明应该执行多少搜索。然而，我们认为这种运行时特性对于第4节中解释的预测模型是必要的，并且所提出的方法仍然需要利用搜索终止条件之间的大多数变化。首先介绍预测器接受的参数以及它是如何训练的。
复制链接

扫一扫

专栏目录