倒排索引在亿级向量数据近似最近邻搜索下的优势（IVF-HNSW）

最新推荐文章于 2025-03-15 10:48:28 发布

程序员王同学

最新推荐文章于 2025-03-15 10:48:28 发布

阅读量3.3k

点赞数

分类专栏：近似最近邻搜索文章标签： ANNS 向量检索近邻图倒排索引亿级向量

本文链接：https://blog.csdn.net/whenever5225/article/details/123945764

版权

近似最近邻搜索专栏收录该内容

25 篇文章

订阅专栏

该论文针对亿级数据的近邻搜索问题，提出了一种改进的倒排索引方法。通过对原始倒排索引进行grouping和pruning策略优化，实现了在大规模数据上提高压缩精度和查询召回率。grouping策略通过细分区域并应用PQ压缩，而pruning则通过与区域中心的距离进行剪枝，减少无效搜索。实验表明，这种方法在billion-scale数据上优于传统的倒排多索引，具有更大的优化潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人主页

简介

论文题目：Revisiting the inverted indices for billion-scale approximate nearest neighbors，2018年发表在ECCV会议上。论文在分析inverted index在大规模数据上的优势（vs. IMI）并借助proximity graph （HNSW）缓解其不足，在billion-scale数据上实现更优ANNS。

主要内容

提出grouping和pruning策略优化inverted index，提升压缩精度和查询召回率。grouping策略将聚类得到的区域进行细分，得到更小的区域并利用PQ压缩；在grouping基础上，pruning可实现更细粒度的定位。通过HNSW定位最近的几个区域（聚簇）

动机

倒排多索引（inverted multi-index, IMI）是一种有效的亿级数据检索方案。但IMI存在问题：IMI划分的很多区域没有数据点，导致有效区域数量较少，可能引起搜索花费大量时间在空区域。本文认为这主要由于IMI为不同的子空间独立学习码本，然而实际上不同子向量（子空间）并不是统计独立的，不同子空间之间可能是非常相关的（比如，CNN产生的descriptors）。

当前对IMI（或PQ）的优化研究大都提升了召回率，但他们的运行时间普遍为10ms左右，在实际场景中还是比较慢。

IMI vs. inverted index

IMI的优点：（1）精确的候选列表；（2）索引和查询效率高。（在码本尺寸K较小时）

缺点：但在K超过 $2^{14}$ 之后，随着K的增加，IMI的性能提升很小。存在大量随机内存访问；内存消耗大。

inverted index的优点：（1）搜索时随机内存访问少；（2）随着K增加，性能提升大；（3）内存可扩展性好；

缺点：对应IMI的优点。

因此，在billion-scale数据上，inverted index更有潜力。