相似项发现(三)--LSH

四、文档的局部敏感哈希算法(LSH)

即使可以使用最小哈希将大文档压缩成小的签名并同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的文档对仍然是不可能的。主要原因在于,即使文档本身的数目并不是很大,但是需要比较的文档对的数目可能很大。

例如:假定有100万篇文档,每篇文档使用的签名的长度为250,则每篇文档需要250*4 bytes来表示签名。所有100万篇文档的签名数据占用1GB空间。这个数字小于普通台式机的内存大小。然而,有C2 20 即约5000亿个文档对需要比较。如果计算每两篇文档签名之间的相似度需要花费1微秒,那么这台计算机需要大约6天才能计算所有的相似度。

如果我们的目标是计算每对文档的相似度,那么即使采用并行机制来减小实耗时间,也没有办法来减少计算量。但是,实际中往往需要得到那些最相似或者相似度超过某个下界的文档对。如果是这样,我们只需要关注那些可能的相似对,而不需要研究所有的文档对。

目前对这类问题的处理存在着一个称为局部敏感哈希(locality-sensitive hashing, LSH)或邻近搜索(near-neighbor search)的一般性理论。

4.1 面向minhasing signature的LSH

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值