局部敏感哈希
文章平均质量分 56
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
DSH: Data Sensitive Hashing for High-Dimensional k-NN Search
与具有大概率将距离r内的对象哈希到一起的随机投影相比,我们的哈希家族需要具有大概率将k-NN对哈希到一起。显然,在分离所有非k-NN对的同时,单一的散列函数并不能保护所有的k-NN对。当数据有偏差时,k-NN对之间的距离可能会有很大的差异,使用一致的r来定义所有相似点是不够的。因此,为这种搜索提供高效的支持是至关重要的。我们首先学习好的原子散列函数,然后使用boosting来获得更好的散列函数集合,就像我们在本节中描述的那样。2)在索引级别,我们看到哈希是不平衡的,其中一些桶是空的,而一些桶包含太多的点。原创 2022-10-24 11:50:38 · 4 阅读 · 0 评论 -
Order-Preserving Key Compression for In-Memory Search Trees
我们的实验表明,对于大多数字符串关键工作负载,使用HOPE可以使搜索树同时实现更低的查询延迟(降低40%)和更好的内存效率(减少30%)。给定源字符串src,可以在字典中查找src,得到一个条目(s→c)∈D, s∈s, c∈c,使得s是src的前缀,即src = s·srcsuffix,其中“·”为拼接操作。使用字符串轴模型,我们可以构建广泛的基于字典的压缩方案,以服务于我们的目标应用程序(即内存搜索树的键压缩)。HOPE是一个基于字典的快速压缩器,可以对任意键进行编码,同时保留它们的顺序。原创 2022-10-06 21:18:39 · 3 阅读 · 0 评论 -
Proteus: A Self-Designing Range Filter
Proteus统一了最先进的范围滤波器的概率和确定性设计空间,以在更大的各种用例中实现鲁棒的性能。Proteus的核心是上下文前缀FPR (CPFPR)模型——一个跨设计空间的基于前缀的过滤器FPR的形式化框架。实验还表明,与端到端性能提升相比,建模的成本不显著,并且Proteus对工作负载的转移具有鲁棒性。在本节中,我们将形式化地描述工作负载的不同方面是如何影响基于前缀的范围过滤器的性能的,以便理解不同设计的权衡。利用该框架对先进的AREs的基本组件进行了分解,实现了统一的设计空间。原创 2022-10-06 20:20:42 · 3 阅读 · 0 评论 -
Neighbor-Sensitive Hashing
本文放弃了这种被大量利用的原则,追求相反的方向,为kNN任务生成更有效的哈希函数。3.2节列出了NST的一组抽象的数学性质,3.3节给出了一个满足这些性质的NST的具体例子。使用二进制哈希函数的近似kNN (k-nearest neighbor)技术是最常用的方法之一,用于克服执行精确kNN查询的过高成本。在这个过程中,一个被广泛采用的原则是,相似的项被分配相同的哈希码,这样与查询的哈希码相似的项很可能是真正的邻居。基于数据项的哈希码检索出的kNN项应该包含尽可能多的真正的kNN项。原创 2022-10-06 14:37:26 · 3 阅读 · 0 评论 -
Hybrid LSH: Faster Near Neighbors Reporting in High-dimensional Space
这意味着我们可以在基于lsh的搜索和线性搜索之间选择合适的搜索策略,以获得更好的性能。此外,集成的数据结构是时间高效的,可以与许多最新的基于lsh的方法相适应。在真实数据集上的实验结果表明,在大范围的搜索半径和高维数据分布下,混合搜索方法的性能优于(或与)基于lsh的搜索和线性搜索方法相当。通过在哈希表的每个桶中构造一个HLL数据结构,可以估计基于lsh的搜索的计算成本,进而确定使用lsh搜索还是线性搜索的条件。本文提出了一种基于lsh搜索和线性搜索相结合的混合搜索策略,用于求解高维空间中的rNNR。原创 2022-09-30 16:01:43 · 5 阅读 · 0 评论 -
DB-LSH: Locality-Sensitive Hashing with Query-based Dynamic Bucketing
在DB-LSH的查询阶段,通过基于索引的窗口查询,动态构造满足查询要求的超立方桶,从而高效地生成少量高质量的候选集。灰色的交叉区域是C2的搜索区域。DB-LSH解耦了(K,L)-索引的哈希和分桶过程,使得可以回答任何r的(r, c)-NN查询,以及任何的c- ann查询。DB-LSH利用在索引阶段为(1,c)-NN建立的(K,L)-索引,可以直接回答任意搜索半径r的(r, c)-NN查询。本文提出了一种新颖的(K,L)-索引方法,以查询为中心的动态分桶策略DB-LSH来解决高维c-ANN搜索问题。原创 2022-09-30 15:33:59 · 12 阅读 · 0 评论 -
LSHiForest: A Generic Framework for Fast Tree Isolation based Ensemble Anomaly Analysis
特别是,具有核化LSH族或基于学习的哈希方案的框架实例可以检测复杂的异常,如本地或包围的异常。形式化地表明,现有的基于树隔离的检测方法是该框架的特殊情况,具有相应的距离度量。该框架具有通用性,可以实例化多种LSH族,快速隔离机制可以扩展到任何定义了LSH族的距离度量、数据类型和数据空间。异常或离群点检测是大数据分析中的一个主要挑战,因为异常模式在广泛的应用中为决策提供了有价值的见解。最近提出的基于树隔离机制的异常检测方法具有对数时间复杂度,速度非常快,能够高效地处理大数据集。原创 2022-09-30 14:19:03 · 8 阅读 · 0 评论 -
Multi-Probe LSH: Efficient Indexing for High-Dimensional Similarity Search
理想情况下,我们希望检查成功率最高的桶。与基于信息熵的LSH方法相比,multi-probe LSH方法在达到相同搜索质量的前提下,查询时间更短,所需的哈希表数量减少了5 ~ 8倍。考虑每个哈希函数的q在其插槽中的位置的想法源自Panigrahy对他的基于熵的LSH方案的分析。基于局部敏感哈希的特性,与两步远的桶相比,一步远的桶(即与查询对象的M个哈希值只有一个不同的哈希值)更有可能包含接近查询对象的对象。通过使用多个扰动向量,我们定位了更多的哈希桶,这些桶可能靠近查询对象的桶,并且可能包含q的最近邻居。原创 2022-09-30 12:19:38 · 8 阅读 · 0 评论 -
Intelligent Probing for Locality Sensitive Hashing: Multi-Probe LSH and Beyond
局部敏感哈希(Locality sensitive hashing, LSH)算法使用随机空间划分和哈希表查找来寻找近似近邻,是一种有理论保证的方法。但是单纯的LSH是不够的,需要大量的哈希表才能达到良好的搜索质量。多探针LSH方法基于panigraphy的思想,引入了智能探测的思想。给定一个查询对象,通过计算相似对象落入每个哈希桶的统计概率,战略性地探测其相邻的哈希桶(以一种查询依赖的方式)。文中回顾了多探针LSH的问题动机、面临的挑战、关键设计考虑,并讨论了该领域的最新进展和有待进一步研究的问题。原创 2022-09-30 10:40:08 · 6 阅读 · 0 评论 -
LSH Ensemble: Internet-Scale Domain Search
选择Jaccard集合包含度而不是Jaccard相似性作为相关性度量,使我们的工作特别适合搜索开放数据和web上的数据,因为众所周知,Jaccard相似性在域大小差异较大的集合上性能较差。本文证明,在几个现实生活中的开放数据和web数据仓库中发现的域在其域大小上呈现幂律分布。本文表明,对于任何数据分布,都存在一个最优的分区方案,可以均衡各个分区的假阳性。对于遵循幂律分布的数据集,如在开放数据和Web数据语料库中观察到的,可以用等深度来近似最优划分,使其在实践中使用特别有效。本文提出一种新的索引结构——原创 2022-09-30 10:31:26 · 7 阅读 · 0 评论 -
LSH Forest: Self-Tuning Indexes for Similarity Search
相似性索引在很多场景下都很重要:网络搜索引擎需要快速、并行、基于内存的索引来进行文本数据的相似性搜索;然后,我们可以在所有标签的集合上构建一个(逻辑上的)前缀树,每个叶子节点对应一个点。我们称这棵树为LSHTree。(a)消除了LSH必须不断手动调整的不同数据依赖参数,(b)在保持相同的存储和查询开销的同时,改进了LSH对倾斜数据分布的性能保证。具体来说,每个点的标签要足够长,以确保每个点都有一个不同的标签。每棵LSH树都是由h中独立绘制的随机哈希函数序列构建的,我们称这个l树的集合为LSHForest。原创 2022-09-29 23:34:21 · 15 阅读 · 0 评论