PQBF: I/O-Efficient Approximate Nearest Neighbor Search by Product Quantization
高维空间的近似最近邻搜索在许多多媒体应用中起着至关重要的作用。近年来,基于乘积量化(PQ)的神经网络搜索方法因其在精度和空间需求之间的良好平衡,在计算机视觉领域引起了广泛关注。基于PQ的方法将高维向量嵌入到一个短的二进制码(称为PQ码)中,并通过非对称量化距离(AQD)以很高的精度估计平方欧氏距离。因此,利用PQ方法可以将原始空间的ANN搜索转换为AQD上的相似性搜索。
现有的PQ方法都是内存解决方案,如果不能完全放在内存中,可能无法处理大量数据。本文提出了一种I/ o高效的基于PQ的ANN搜索解决方案。设计了一种名为PQB+-forest的索引来支持AQD上的高效相似性搜索。PQB+-forest算法首先利用粗量化器对PQ编码进行分区,然后为每个分区建立一棵B+-树,称为PQB+-树。通过专注于选择的几个最接近查询的分区,以及pqb +-树的剪枝能力,搜索过程大大加快。在两个包含多达10亿向量的大规模数据集上进行的实验表明,该方法优于包括最先进的PQ方法和最先进的LSH方法的ANN搜索。
1.解决的问题:
1)现有的基于PQ的方法最初设计为内存解决方案,当应用于处理大规模数据集时,存在可伸缩性和效率问题。
2)簇中心的划分让大规模数据缺少可扩张性
2. 研究内容:
1)本文设计了一种I/O高效的数据结构来支