基于LSH的文本主题合并

最新推荐文章于 2020-10-11 16:28:30 发布

yaosiyu1991

最新推荐文章于 2020-10-11 16:28:30 发布

阅读量698

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaosiyu1991/article/details/80255493

版权

缘起

之前在项目中需要对从微博获取的数据进行热门新话题发现，由于微博传播的特性，新的热门的话题，人们会对它进行广泛的讨论，而且讨论的内容会比较类似，所以想到了把相似内容进行合并，把讨论量大的内容作为热门新话题。经过一翻查询，选定了LSH作为相似内容检测的方法

LSH

LSH(Locality Sensitive Hashing)，局部敏感哈希，它是一种针对海量高维数据的快速最近邻查找算法。

为了解决在海量高维数据中查找最近邻的问题，人们设计了一种特殊的hash函数，使得2个相似度很高的数据以较高的概率映射成同一个hash值，而令2个相似度很低的数据以极低的概率映射成同一个hash值。我们把这样的函数，叫做LSH（局部敏感哈希）

LSH的效果是，可以把高维向量hash成一串 n-bit 的数字，当两个向量cosin夹角越小的时候（即他们越相似），那么他们hash成的这两串数字就越相近

降维

要解决高维数据计算的问题，要进行降维，LSH中常用的降维方法是minhash和simhash

Minhash和Simhash

minhash

在数据挖掘中，一个最基本的问题就是比较两个集合的相似度，通常通过，统计这两个集合中相同元素的个数，来表示集合的相似度，这一步也可以看成特征向量间相似度的计算（欧式距离，余弦相似度），当两个集合里元素数量异常大（特征空间维度很大），同时又有很多个集合需要判断两两间的相似度时，传统方法会变得十分耗时，minHash可以用来解决该问题

为了计算minhash值，首先对特征矩阵进行打乱。然后某一列的minhash值就等于打乱后这一列第一个值为1的行所在的行号

Jaccard相似度

Jaccard相似度用来表示集合的相似度。Jaccard(A, B)= |A ∩ B|

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于LSH的文本主题合并

缘起之前在项目中需要对从微博获取的数据进行热门新话题发现，由于微博传播的特性，新的热门的话题，人们会对它进行广泛的讨论，而且讨论的内容会比较类似，所以想到了把相似内容进行合并，把讨论量大的内容作为热门新话题。经过一翻查询，选定了LSH作为相似内容检测的方法LSHLSH(Locality Sensitive Hashing)，局部敏感哈希，它是一种针对海量高维数据的快速最近邻查找算法。为了解决在海量...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。