SK-LSH : An Efficient Index Structure for Approximate Nearest Neighbor Search
高维空间中的近似最近邻(ANN)搜索已经成为许多应用的基本范式。近年来,局部敏感哈希(Locality Sensitive Hashing, LSH)及其变种被认为是最有前途的人工神经网络搜索解决方案。然而,最先进的LSH方法有一个缺点:访问候选对象需要大量的随机I/O操作。为了保证返回结果的质量,需要验证足够多的对象,这将消耗巨大的I/O开销。
为了解决这个问题,提出了一种新的方法——SK-LSH (SortingKeys-LSH),通过局部排列候选对象来减少页面访问次数。首先,定义了一种新的度量方法来衡量两个点的复合哈希键之间的距离;然后在复合哈希键集合上建立线性顺序关系,并对对应的数据点进行排序。因此,根据距离度量比较接近的数据点可以存储在本地的索引文件中。在人工神经网络搜索过程中,只需访问少数索引文件中有限数量的磁盘页面即可进行充分的候选生成和验证,这不仅大大减少了响应时间,而且提高了返回结果的准确性。在几个真实世界数据集上的详尽实证研究表明,与最先进的方法(包括LSB, C2LSH和CK-Means)相比,SK-LSH在神经网络搜索方面具有卓越的效率和准确性。
一解决问题
1)访问候选对象需要大量的随机I/O操作。为了保证返回结果的质量,需要验证足够多的对象,这将消耗巨大的I/O开销。相似的对象可能存在相同的磁