基于LSH的文本主题合并

缘起


之前在项目中需要对从微博获取的数据进行热门新话题发现,由于微博传播的特性,新的热门的话题,人们会对它进行广泛的讨论,而且讨论的内容会比较类似,所以想到了把相似内容进行合并,把讨论量大的内容作为热门新话题。经过一翻查询,选定了LSH作为相似内容检测的方法


LSH


LSH(Locality Sensitive Hashing),局部敏感哈希,它是一种针对海量高维数据的快速最近邻查找算法。

为了解决在海量高维数据中查找最近邻的问题,人们设计了一种特殊的hash函数,使得2个相似度很高的数据以较高的概率映射成同一个hash值,而令2个相似度很低的数据以极低的概率映射成同一个hash值。我们把这样的函数,叫做LSH(局部敏感哈希)

LSH的效果是,可以把高维向量hash成一串 n-bit 的数字,当两个向量cosin夹角越小的时候(即他们越相似),那么他们hash成的这两串数字就越相近


降维


要解决高维数据计算的问题,要进行降维,LSH中常用的降维方法是minhash和simhash


Minhash和Simhash


minhash

在数据挖掘中,一个最基本的问题就是比较两个集合的相似度,通常通过,统计这两个集合中相同元素的个数,来表示集合的相似度,这一步也可以看成特征向量间相似度的计算(欧式距离,余弦相似度),当两个集合里元素数量异常大(特征空间维度很大),同时又有很多个集合需要判断两两间的相似度时,传统方法会变得十分耗时,minHash可以用来解决该问题

为了计算minhash值,首先对特征矩阵进行打乱。然后某一列的minhash值就等于打乱后这一列第一个值为1的行所在的行号


Jaccard相似度

Jaccard相似度用来表示集合的相似度。Jaccard(A, B)= |A ∩ B|
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值