LSH Ensemble: Internet-Scale Domain Search

西西弗的小蚂蚁

已于 2024-04-17 12:35:56 修改

阅读量36

点赞数

分类专栏：局部敏感哈希文章标签：算法

于 2022-09-30 10:31:26 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/127115866

版权

局部敏感哈希专栏收录该内容

11 篇文章 0 订阅

订阅专栏

LSH Ensemble: Internet-Scale Domain Search

研究了域搜索问题，其中域是来自未指定论域的不同值的集合。我们使用Jaccard集合包含度分数，定义为|Q∩X|/|Q|，作为域X与查询域Q的相关性度量。选择Jaccard集合包含度而不是Jaccard相似性作为相关性度量，使我们的工作特别适合搜索开放数据和web上的数据，因为众所周知，Jaccard相似性在域大小差异较大的集合上性能较差。本文证明，在几个现实生活中的开放数据和web数据仓库中发现的域在其域大小上呈现幂律分布。

本文提出一种新的索引结构——局部敏感哈希(LSH)集成，利用集合包含解决互联网规模的域搜索问题。我们的索引结构和搜索算法通过使用最小散列和域划分的数据草图来应对数据量和倾斜。我们的索引结构没有假定一组指定的数据值。构建了一个代价模型，描述了LSH集成对任何给定分区的精度。这使得我们可以将LSH集成的数据划分表述为一个优化问题。我们证明了对于任何数据分布都存在一个最优划分。对于遵循幂律分布的数据集，如在开放数据和Web数据语料库中观察到的，可以用等深度来近似最优划分，使其在实践中使用特别有效。

使用包含超过2.62亿个域名的真实数据(加拿大开放数据和WDC网络表)评估了所提出的算法。实验表明，该索引在准确性和性能上始终优于其他主流索引。对于在域大小上具有较大倾斜的数据，改进最显著。即使在2.62亿个域名中，我们的索引也能以低于3秒的响应时间维持查询性能。

方法：LSH ENSEMBLE

在我们的方法中，分两个阶段对域进行索引。在第一阶段，根据域基数将域划分为不相交的分区。在第二阶段，我们为每个分区构造一个MinHash LSH索引。每个LSH索引都根据其特定的Jaccard相似度阈值进行动态调优。

结论：

通过划分，展示了如何在数亿个域上高效地执行基于集合包含的查询，这些域的大小分布高度偏斜。构造了一个代价模型，该模型描述了给定分区下LSH集成的精度。本文表明，对于任何数据分布，都存在一个最优的分区方案，可以均衡各个分区的假阳性。此外，对于具有幂律分布的数据集，最优划分可以用等深度近似，易于高效实现。