LSH Ensemble: Internet-Scale Domain Search

LSH Ensemble: Internet-Scale Domain Search

研究了域搜索问题,其中域是来自未指定论域的不同值的集合。我们使用Jaccard集合包含度分数,定义为|Q∩X|/|Q|,作为域X与查询域Q的相关性度量。选择Jaccard集合包含度而不是Jaccard相似性作为相关性度量,使我们的工作特别适合搜索开放数据和web上的数据,因为众所周知,Jaccard相似性在域大小差异较大的集合上性能较差。本文证明,在几个现实生活中的开放数据和web数据仓库中发现的域在其域大小上呈现幂律分布。

本文提出一种新的索引结构——局部敏感哈希(LSH)集成,利用集合包含解决互联网规模的域搜索问题。我们的索引结构和搜索算法通过使用最小散列和域划分的数据草图来应对数据量和倾斜我们的索引结构没有假定一组指定的数据值。构建了一个代价模型,描述了LSH集成对任何给定分区的精度。这使得我们可以将LSH集成的数据划分表述为一个优化问题。我们证明了对于任何数据分布都存在一个最优划分。对于遵循幂律分布的数据集,如在开放数据和Web数据语料库中观察到的,可以用等深度来近似最优划分,使其在实践中使用特别有效。

使用包含超过2.62亿个域名的真实数据(加拿大开放数据和WDC网络表)评估了所提出的算法。实验表明,该索引在准确性和性能上始终优于其他主流索引。对于在域大小上具有较大倾斜的数据,改进最显著。即使在2.62亿个域名中,我们的索引也能以低于3秒的响应时间维持查询性能。 

方法:LSH ENSEMBLE

在我们的方法中,分两个阶段对域进行索引。在第一阶段,根据域基数将域划分为不相交的分区。在第二阶段,我们为每个分区构造一个MinHash LSH索引。每个LSH索引都根据其特定的Jaccard相似度阈值进行动态调优。 

结论:

通过划分,展示了如何在数亿个域上高效地执行基于集合包含的查询,这些域的大小分布高度偏斜。构造了一个代价模型,该模型描述了给定分区下LSH集成的精度。本文表明,对于任何数据分布,都存在一个最优的分区方案,可以均衡各个分区的假阳性。此外,对于具有幂律分布的数据集,最优划分可以用等深度近似,易于高效实现。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值